Show HN: RunAnwhere – Apple Silicon에서 더 빠른 AI 추론
Source: Hacker News
소개
Hi HN, we’re Sanchit and Shubham (YC W26). We built a fast inference engine for Apple Silicon. LLMs, speech‑to‑text, and text‑to‑speech – MetalRT beats llama.cpp, Apple’s MLX, Ollama, and sherpa‑onnx on every modality we tested. It uses custom Metal shaders and has no framework overhead.
우리는 또한 RCLI를 오픈소스화했으며, Apple Silicon에서 가장 빠른 엔드‑투‑엔드 음성 AI 파이프라인입니다: 마이크 입력부터 음성 응답까지 전부 디바이스 내에서 처리하며 클라우드나 API 키가 필요 없습니다.
시작하기
# Install via Homebrew
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
# Set up models (≈1 GB download)
rcli setup
# Run interactive mode (push‑to‑talk)
rcli
하나의 스크립트로 설치하려면:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
벤치마크
LLM 디코딩
| 모델 | 토큰/초 | mlx‑lm 대비 | llama.cpp 대비 |
|---|---|---|---|
| Qwen3‑0.6B | 658 | 1.19× faster (552) | 1.67× faster (295) |
| Qwen3‑4B | 186 | 1.09× faster (170) | 2.14× faster (87) |
| LFM2.5‑1.2B | 570 | 1.12× faster (509) | 1.53× faster (372) |
| 첫 토큰까지 시간 | 6.6 ms | – | – |
음성‑텍스트 변환 (STT)
- 70 seconds of audio transcribed in 101 ms → 714× real‑time, 4.6× faster than
mlx‑whisper.
텍스트‑음성 변환 (TTS)
- 178 ms synthesis, 2.8× faster than
mlx‑audioandsherpa‑onnx.
동기
온‑디바이스 AI를 데모하는 것은 쉽지만, 실제 배포는 매우 어렵습니다. 음성은 STT → LLM → TTS가 순차적으로 연결되기 때문에 가장 어려운 테스트이며, 어느 단계가 느려도 사용자 경험에 큰 영향을 줍니다. 대부분의 팀이 클라우드 API로 돌아가는 이유는 로컬 모델이 나쁘기 때문이 아니라 로컬 추론 인프라가 지연을 초래하기 때문입니다.
핵심 과제는 지연 누적입니다: 세 모델을 연속으로 실행하면 쉽게 600 ms를 초과하게 되며, 이는 사용자가 느끼기에 부자연스럽습니다. 모든 단계가 빠르게 동작하고, 단일 디바이스에서 실행되며, 네트워크 왕복을 피해야 합니다.
기술적 접근
우리는 바로 Metal을 사용했습니다:
- 맞춤형 GPU 컴퓨트 셰이더 for quantized matmul, attention, and activation, compiled ahead of time.
- 추론 중 메모리 할당 없음 – all memory is pre‑allocated at init.
- A single unified engine (MetalRT) handles LLM, STT, and TTS natively on Apple Silicon, avoiding the graph schedulers, runtime dispatchers, and memory managers that other engines layer on top of the GPU.
MetalRT는 Apple Silicon에서 세 가지 모달리티를 모두 네이티브로 처리하는 최초의 엔진입니다.
리소스
- LLM 벤치마크:
- 음성 벤치마크:
- 음성 파이프라인 최적화:
- RAG 최적화:
오픈소스 프로젝트
- 저장소: (MIT 라이선스)
- 특징:
- 락‑프리 링 버퍼를 사용하는 세 개의 동시 스레드
- 이중 버퍼링 TTS
- 음성으로 제어하는 38개의 macOS 액션
- 로컬 RAG (~4 ms, 5 K+ 청크)
- 20개의 핫스와핑 가능한 모델
- 연산별 지연을 표시하는 전체 화면 TUI
- MetalRT가 설치되지 않은 경우
llama.cpp로 대체
데모
데모 영상을 시청하세요:
토론 주제
온‑디바이스 AI가 실제로 클라우드만큼 빠르다면 무엇을 만들고 싶나요?
댓글
(86점, 23댓글)