Show HN: RunAnwhere – 在 Apple Silicon 上更快的 AI 推理

发布: 5小时前 (2026年3月11日 GMT+8 01:14)

4 分钟阅读

Source: Hacker News

介绍

嗨 HN，我们是 Sanchit 和 Shubham（YC W26）。我们为 Apple Silicon 构建了一个高速推理引擎。LLM、语音转文字（STT）和文字转语音（TTS）——MetalRT 在我们测试的所有模态上都超越了 llama.cpp、Apple 的 MLX、Ollama 和 sherpa‑onnx。它使用自定义 Metal 着色器，且没有框架开销。

我们还开源了 RCLI，这是 Apple Silicon 上最快的端到端语音 AI 流水线：从麦克风到语音回复，全部在本地设备上运行，无需云服务或 API 密钥。

入门指南

# 通过 Homebrew 安装
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli

# 设置模型（约 1 GB 下载）
rcli setup

# 运行交互模式（按住说话）
rcli

或使用单个脚本安装：

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

基准测试

LLM 解码

模型	Tokens/s	vs mlx‑lm	vs llama.cpp
Qwen3‑0.6B	658	1.19× 更快 (552)	1.67× 更快 (295)
Qwen3‑4B	186	1.09× 更快 (170)	2.14× 更快 (87)
LFM2.5‑1.2B	570	1.12× 更快 (509)	1.53× 更快 (372)
首次 Token 时间	6.6 ms	–	–

语音转文字（STT）

70 秒音频在 101 ms 内转写 → 714× 实时，比 mlx‑whisper 快 4.6 倍。

文字转语音（TTS）

178 ms 合成，比 mlx‑audio 和 sherpa‑onnx 快 2.8 倍。

动机

在设备上演示 AI 很容易；真正交付却非常艰难。语音是最严苛的测试，因为它需要将 STT → LLM → TTS 串联执行，任何一个阶段的慢速都会影响用户体验。大多数团队退回使用云 API，并不是因为本地模型不好，而是因为本地推理基础设施会增加延迟。

核心挑战是 延迟叠加：三个模型串联很容易超过 600 ms，给人破碎的感觉。每个阶段都必须快速、在单一设备上运行，并且避免网络往返。

技术方案

我们直接使用 Metal：

为量化矩阵乘、注意力机制和激活函数编写的 自定义 GPU 计算着色器，提前编译。
推理期间零分配——所有内存在初始化时预先分配。
一个 统一的引擎（MetalRT）原生支持 LLM、STT 和 TTS，在 Apple Silicon 上运行，避免了其他引擎在 GPU 之上叠加的图调度器、运行时分发器和内存管理器。

MetalRT 是首个在 Apple Silicon 上原生处理这三种模态的引擎。

资源

LLM 基准：
语音基准：
语音流水线优化：
RAG 优化：

开源项目

代码仓库： (MIT 许可证)
特性：
- 三个并发线程，使用无锁环形缓冲区
- 双缓冲 TTS
- 通过语音实现 38 项 macOS 操作
- 本地 RAG（约 4 ms，处理 5 K+ 片段）
- 20 个热插拔模型
- 全屏 TUI，显示每个操作的延迟
- 当未安装 MetalRT 时回退到 llama.cpp

演示

观看演示视频：

讨论提示

如果本地 AI 真正像云端一样快，你会构建什么？

(86 points, 23 comments)

Show HN: RunAnwhere – 在 Apple Silicon 上更快的 AI 推理

介绍

入门指南

基准测试

LLM 解码

语音转文字（STT）

文字转语音（TTS）

动机

技术方案

资源

开源项目

演示

讨论提示

评论

相关文章

RISC‑V 很慢

Widevine 停止其云许可证服务 (CLS)

修订 MidnightBSD 的年龄验证条款

使用生成的推理栈超越 vLLM