Show HN: 나는 처음부터 500ms 미만 지연을 가진 voice agent를 만들었습니다

발행: 23시간 전 (2026년 3월 3일 오전 06:23 GMT+9)

2 분 소요

원문: Hacker News

Source: Hacker News

개요

나는 처음부터 음성 에이전트를 구축했으며, 평균 약 400 ms의 엔드‑투‑엔드 지연(전화 끊김 → 첫 음절) 을 달성했다. 이는 STT → LLM → TTS 전체가 루프에 포함되고, 깔끔한 바지‑인(중간 끼어들기)과 사전 계산된 응답이 없을 때의 수치이다.

핵심 포인트

음성은 턴‑테이킹 문제이며, 단순 전사 문제는 아니다. VAD만으로는 부족하고, 의미 기반의 턴 종료 감지가 필요하다.
시스템은 하나의 루프, 즉 말하기 ↔ 듣기 로 축소된다. 두 가지 전환—바지‑인 시 즉시 취소, 턴 종료 시 즉시 응답—이 경험을 정의한다.
STT → LLM → TTS는 스트리밍 되어야 한다. 순차적인 파이프라인은 자연스러운 대화에 있어 즉시 실패한다.
TTFT(첫 토큰 도착 시간)가 모든 것을 좌우한다. 음성에서는 첫 토큰이 가장 중요한 경로이며, Groq의 약 80 ms TTFT가 가장 큰 개선점이었다.
지리적 위치가 프롬프트보다 더 중요하다. 모든 구성 요소를 동일한 위치에 두지 않으면 시작하기도 전에 성능이 떨어진다.

참고 자료

댓글: Hacker News discussion (점수: 11, 댓글: 3)

관련 글

가격 때문에 최고의 AI 코딩 도구를 놓치게 될 겁니다

소개 앤디 워홀은 유명하게 말했다: > “이 나라의 위대한 점은 가장 부유한 소비자들이 본질적으로 가장 가난한 사람들과 같은 것들을 산다는 것이다. 당신은 …'

왜 AI 게임이 없을까?

번역할 텍스트를 제공해 주시겠어요?

3년 만에 처음 올리는 과학 비디오 (Pysics Girl)

영상: 3년 만에 올리는 첫 과학 영상, Physics Girl https://www.youtube.com/watch?v=B3m3AMRlYfc 토론: Hacker News 댓글 https://news.ycombinator.com/ite...

Physics Girl: Super‑Kamiokande – 중성미자를 감지하여 태양을 영상화하기 [video]

Physics Girl: Super‑Kamiokande – 중성미자를 감지해 태양을 영상화하는 비디오 https://www.youtube.com/watch?v=B3m3AMRlYfc Hacker News 토론: 댓글 https:/...