Show HN: RunAnwhere – 在 Apple Silicon 上更快的 AI 推理

发布: (2026年3月11日 GMT+8 01:14)
4 分钟阅读

Source: Hacker News

介绍

嗨 HN,我们是 Sanchit 和 Shubham(YC W26)。我们为 Apple Silicon 构建了一个高速推理引擎。LLM、语音转文字(STT)和文字转语音(TTS)——MetalRT 在我们测试的所有模态上都超越了 llama.cpp、Apple 的 MLX、Ollama 和 sherpa‑onnx。它使用自定义 Metal 着色器,且没有框架开销。

我们还开源了 RCLI,这是 Apple Silicon 上最快的端到端语音 AI 流水线:从麦克风到语音回复,全部在本地设备上运行,无需云服务或 API 密钥。

入门指南

# 通过 Homebrew 安装
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli

# 设置模型(约 1 GB 下载)
rcli setup

# 运行交互模式(按住说话)
rcli

或使用单个脚本安装:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

基准测试

LLM 解码

模型Tokens/svs mlx‑lmvs llama.cpp
Qwen3‑0.6B6581.19× 更快 (552)1.67× 更快 (295)
Qwen3‑4B1861.09× 更快 (170)2.14× 更快 (87)
LFM2.5‑1.2B5701.12× 更快 (509)1.53× 更快 (372)
首次 Token 时间6.6 ms

语音转文字(STT)

  • 70 秒音频在 101 ms 内转写 → 714× 实时,比 mlx‑whisper 快 4.6 倍。

文字转语音(TTS)

  • 178 ms 合成,比 mlx‑audiosherpa‑onnx 快 2.8 倍。

动机

在设备上演示 AI 很容易;真正交付却非常艰难。语音是最严苛的测试,因为它需要将 STT → LLM → TTS 串联执行,任何一个阶段的慢速都会影响用户体验。大多数团队退回使用云 API,并不是因为本地模型不好,而是因为本地推理基础设施会增加延迟。

核心挑战是 延迟叠加:三个模型串联很容易超过 600 ms,给人破碎的感觉。每个阶段都必须快速、在单一设备上运行,并且避免网络往返。

技术方案

我们直接使用 Metal:

  • 为量化矩阵乘、注意力机制和激活函数编写的 自定义 GPU 计算着色器,提前编译。
  • 推理期间零分配——所有内存在初始化时预先分配。
  • 一个 统一的引擎(MetalRT)原生支持 LLM、STT 和 TTS,在 Apple Silicon 上运行,避免了其他引擎在 GPU 之上叠加的图调度器、运行时分发器和内存管理器。

MetalRT 是首个在 Apple Silicon 上原生处理这三种模态的引擎。

资源

  • LLM 基准
  • 语音基准
  • 语音流水线优化
  • RAG 优化

开源项目

  • 代码仓库: (MIT 许可证)
  • 特性:
    • 三个并发线程,使用无锁环形缓冲区
    • 双缓冲 TTS
    • 通过语音实现 38 项 macOS 操作
    • 本地 RAG(约 4 ms,处理 5 K+ 片段)
    • 20 个热插拔模型
    • 全屏 TUI,显示每个操作的延迟
    • 当未安装 MetalRT 时回退到 llama.cpp

演示

观看演示视频:

讨论提示

如果本地 AI 真正像云端一样快,你会构建什么?

评论

(86 points, 23 comments)

0 浏览
Back to Blog

相关文章

阅读更多 »

RISC‑V 很慢

在进行 Triaging 时,我浏览了 Fedora RISC‑V tracker https://abologna.gitlab.io/fedora-riscv-tracker/ 的条目,已经对大多数进行了分流,目前仍剩下 17 条条目。