Show HN:我从头开始构建了一个低于 500 毫秒 延迟的语音代理

发布: (2026年3月3日 GMT+8 05:23)
2 分钟阅读

Source: Hacker News

概览

我从零开始构建了一个语音代理,端到端延迟(挂断电话 → 第一个音节)平均约 400 ms。该系统包含完整的语音转文字(STT)→ 大语言模型(LLM)→ 语音合成(TTS)流程,支持干净的抢话(barge‑in),且不使用预先计算的响应。

关键因素

  • 语音是一个轮次(turn‑taking)问题,而不是转录问题。仅靠 VAD(语音活动检测)无法满足需求;必须进行语义层面的轮次结束检测。
  • 系统可以简化为一个循环:说话 ↔ 听话。两个转变——抢话时瞬间取消,轮次结束时瞬间响应——决定了用户体验。
  • STT → LLM → TTS 必须是流式处理。顺序管线在自然对话中根本不可行。
  • TTFT(首个 token 的生成时间)是决定因素。在语音交互中,首个 token 是关键路径。Groq 提供的约 80 ms TTFT 是最大的提升。
  • 地理位置比提示词更重要。所有组件必须同地部署,否则在开始前就已经失去竞争力。

参考资料

0 浏览
Back to Blog

相关文章

阅读更多 »