Show HN: RunAnwhere – 在 Apple Silicon 上更快的 AI 推理
Source: Hacker News
介绍
嗨 HN,我们是 Sanchit 和 Shubham(YC W26)。我们为 Apple Silicon 构建了一个高速推理引擎。LLM、语音转文字(STT)和文字转语音(TTS)——MetalRT 在我们测试的所有模态上都超越了 llama.cpp、Apple 的 MLX、Ollama 和 sherpa‑onnx。它使用自定义 Metal 着色器,且没有框架开销。
我们还开源了 RCLI,这是 Apple Silicon 上最快的端到端语音 AI 流水线:从麦克风到语音回复,全部在本地设备上运行,无需云服务或 API 密钥。
入门指南
# 通过 Homebrew 安装
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
# 设置模型(约 1 GB 下载)
rcli setup
# 运行交互模式(按住说话)
rcli
或使用单个脚本安装:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
基准测试
LLM 解码
| 模型 | Tokens/s | vs mlx‑lm | vs llama.cpp |
|---|---|---|---|
| Qwen3‑0.6B | 658 | 1.19× 更快 (552) | 1.67× 更快 (295) |
| Qwen3‑4B | 186 | 1.09× 更快 (170) | 2.14× 更快 (87) |
| LFM2.5‑1.2B | 570 | 1.12× 更快 (509) | 1.53× 更快 (372) |
| 首次 Token 时间 | 6.6 ms | – | – |
语音转文字(STT)
- 70 秒音频在 101 ms 内转写 → 714× 实时,比
mlx‑whisper快 4.6 倍。
文字转语音(TTS)
- 178 ms 合成,比
mlx‑audio和sherpa‑onnx快 2.8 倍。
动机
在设备上演示 AI 很容易;真正交付却非常艰难。语音是最严苛的测试,因为它需要将 STT → LLM → TTS 串联执行,任何一个阶段的慢速都会影响用户体验。大多数团队退回使用云 API,并不是因为本地模型不好,而是因为本地推理基础设施会增加延迟。
核心挑战是 延迟叠加:三个模型串联很容易超过 600 ms,给人破碎的感觉。每个阶段都必须快速、在单一设备上运行,并且避免网络往返。
技术方案
我们直接使用 Metal:
- 为量化矩阵乘、注意力机制和激活函数编写的 自定义 GPU 计算着色器,提前编译。
- 推理期间零分配——所有内存在初始化时预先分配。
- 一个 统一的引擎(MetalRT)原生支持 LLM、STT 和 TTS,在 Apple Silicon 上运行,避免了其他引擎在 GPU 之上叠加的图调度器、运行时分发器和内存管理器。
MetalRT 是首个在 Apple Silicon 上原生处理这三种模态的引擎。
资源
- LLM 基准:
- 语音基准:
- 语音流水线优化:
- RAG 优化:
开源项目
- 代码仓库: (MIT 许可证)
- 特性:
- 三个并发线程,使用无锁环形缓冲区
- 双缓冲 TTS
- 通过语音实现 38 项 macOS 操作
- 本地 RAG(约 4 ms,处理 5 K+ 片段)
- 20 个热插拔模型
- 全屏 TUI,显示每个操作的延迟
- 当未安装 MetalRT 时回退到
llama.cpp
演示
观看演示视频:
讨论提示
如果本地 AI 真正像云端一样快,你会构建什么?
评论
(86 points, 23 comments)