Show HN: 나는 처음부터 500ms 미만 지연을 가진 voice agent를 만들었습니다

발행: (2026년 3월 3일 오전 06:23 GMT+9)
2 분 소요

Source: Hacker News

개요

나는 처음부터 음성 에이전트를 구축했으며, 평균 약 400 ms의 엔드‑투‑엔드 지연(전화 끊김 → 첫 음절) 을 달성했다. 이는 STT → LLM → TTS 전체가 루프에 포함되고, 깔끔한 바지‑인(중간 끼어들기)과 사전 계산된 응답이 없을 때의 수치이다.

핵심 포인트

  • 음성은 턴‑테이킹 문제이며, 단순 전사 문제는 아니다. VAD만으로는 부족하고, 의미 기반의 턴 종료 감지가 필요하다.
  • 시스템은 하나의 루프, 즉 말하기 ↔ 듣기 로 축소된다. 두 가지 전환—바지‑인 시 즉시 취소, 턴 종료 시 즉시 응답—이 경험을 정의한다.
  • STT → LLM → TTS는 스트리밍 되어야 한다. 순차적인 파이프라인은 자연스러운 대화에 있어 즉시 실패한다.
  • TTFT(첫 토큰 도착 시간)가 모든 것을 좌우한다. 음성에서는 첫 토큰이 가장 중요한 경로이며, Groq의 약 80 ms TTFT가 가장 큰 개선점이었다.
  • 지리적 위치가 프롬프트보다 더 중요하다. 모든 구성 요소를 동일한 위치에 두지 않으면 시작하기도 전에 성능이 떨어진다.

참고 자료

0 조회
Back to Blog

관련 글

더 보기 »