Show HN:我从头开始构建了一个低于 500 毫秒 延迟的语音代理
发布: (2026年3月3日 GMT+8 05:23)
2 分钟阅读
原文: Hacker News
Source: Hacker News
概览
我从零开始构建了一个语音代理,端到端延迟(挂断电话 → 第一个音节)平均约 400 ms。该系统包含完整的语音转文字(STT)→ 大语言模型(LLM)→ 语音合成(TTS)流程,支持干净的抢话(barge‑in),且不使用预先计算的响应。
关键因素
- 语音是一个轮次(turn‑taking)问题,而不是转录问题。仅靠 VAD(语音活动检测)无法满足需求;必须进行语义层面的轮次结束检测。
- 系统可以简化为一个循环:说话 ↔ 听话。两个转变——抢话时瞬间取消,轮次结束时瞬间响应——决定了用户体验。
- STT → LLM → TTS 必须是流式处理。顺序管线在自然对话中根本不可行。
- TTFT(首个 token 的生成时间)是决定因素。在语音交互中,首个 token 是关键路径。Groq 提供的约 80 ms TTFT 是最大的提升。
- 地理位置比提示词更重要。所有组件必须同地部署,否则在开始前就已经失去竞争力。
参考资料
- 评论: Hacker News discussion (Points: 11, Comments: 3)