Show HN: RunAnwhere – Apple Silicon에서 더 빠른 AI 추론

발행: (2026년 3월 11일 AM 02:14 GMT+9)
5 분 소요

Source: Hacker News

소개

Hi HN, we’re Sanchit and Shubham (YC W26). We built a fast inference engine for Apple Silicon. LLMs, speech‑to‑text, and text‑to‑speech – MetalRT beats llama.cpp, Apple’s MLX, Ollama, and sherpa‑onnx on every modality we tested. It uses custom Metal shaders and has no framework overhead.

우리는 또한 RCLI를 오픈소스화했으며, Apple Silicon에서 가장 빠른 엔드‑투‑엔드 음성 AI 파이프라인입니다: 마이크 입력부터 음성 응답까지 전부 디바이스 내에서 처리하며 클라우드나 API 키가 필요 없습니다.

시작하기

# Install via Homebrew
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli

# Set up models (≈1 GB download)
rcli setup

# Run interactive mode (push‑to‑talk)
rcli

하나의 스크립트로 설치하려면:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

벤치마크

LLM 디코딩

모델토큰/초mlx‑lm 대비llama.cpp 대비
Qwen3‑0.6B6581.19× faster (552)1.67× faster (295)
Qwen3‑4B1861.09× faster (170)2.14× faster (87)
LFM2.5‑1.2B5701.12× faster (509)1.53× faster (372)
첫 토큰까지 시간6.6 ms

음성‑텍스트 변환 (STT)

  • 70 seconds of audio transcribed in 101 ms714× real‑time, 4.6× faster than mlx‑whisper.

텍스트‑음성 변환 (TTS)

  • 178 ms synthesis, 2.8× faster than mlx‑audio and sherpa‑onnx.

동기

온‑디바이스 AI를 데모하는 것은 쉽지만, 실제 배포는 매우 어렵습니다. 음성은 STT → LLM → TTS가 순차적으로 연결되기 때문에 가장 어려운 테스트이며, 어느 단계가 느려도 사용자 경험에 큰 영향을 줍니다. 대부분의 팀이 클라우드 API로 돌아가는 이유는 로컬 모델이 나쁘기 때문이 아니라 로컬 추론 인프라가 지연을 초래하기 때문입니다.

핵심 과제는 지연 누적입니다: 세 모델을 연속으로 실행하면 쉽게 600 ms를 초과하게 되며, 이는 사용자가 느끼기에 부자연스럽습니다. 모든 단계가 빠르게 동작하고, 단일 디바이스에서 실행되며, 네트워크 왕복을 피해야 합니다.

기술적 접근

우리는 바로 Metal을 사용했습니다:

  • 맞춤형 GPU 컴퓨트 셰이더 for quantized matmul, attention, and activation, compiled ahead of time.
  • 추론 중 메모리 할당 없음 – all memory is pre‑allocated at init.
  • A single unified engine (MetalRT) handles LLM, STT, and TTS natively on Apple Silicon, avoiding the graph schedulers, runtime dispatchers, and memory managers that other engines layer on top of the GPU.

MetalRT는 Apple Silicon에서 세 가지 모달리티를 모두 네이티브로 처리하는 최초의 엔진입니다.

리소스

  • LLM 벤치마크:
  • 음성 벤치마크:
  • 음성 파이프라인 최적화:
  • RAG 최적화:

오픈소스 프로젝트

  • 저장소: (MIT 라이선스)
  • 특징:
    • 락‑프리 링 버퍼를 사용하는 세 개의 동시 스레드
    • 이중 버퍼링 TTS
    • 음성으로 제어하는 38개의 macOS 액션
    • 로컬 RAG (~4 ms, 5 K+ 청크)
    • 20개의 핫스와핑 가능한 모델
    • 연산별 지연을 표시하는 전체 화면 TUI
    • MetalRT가 설치되지 않은 경우 llama.cpp로 대체

데모

데모 영상을 시청하세요:

토론 주제

온‑디바이스 AI가 실제로 클라우드만큼 빠르다면 무엇을 만들고 싶나요?

댓글

(86점, 23댓글)

0 조회
Back to Blog

관련 글

더 보기 »

RISC-V는 느려요

분류 작업: Fedora RISC‑V 트래커(https://abologna.gitlab.io/fedora-riscv-tracker/) 항목들을 살펴보았고, 대부분을 분류했습니다. 현재 17개의 항목이 남아 있습니다.

MidnightBSD 연령 확인 약관 수정

Age Verification Terms 운영 체제에 대한 연령 확인이 필요한 모든 국가, 주, 영토의 거주자는 Midnigh...를 사용할 권한이 없습니다.

Generated Inference Stack으로 vLLM을 능가

죄송합니다만, 제공해 주신 URL의 내용을 직접 확인할 수 없습니다. 번역을 원하시는 텍스트를 여기 직접 붙여 주시면 한국어로 번역해 드리겠습니다.