Show HN：我从头开始构建了一个低于 500 毫秒延迟的语音代理

发布: 23小时前 (2026年3月3日 GMT+8 05:23)

2 分钟阅读

原文: Hacker News

Source: Hacker News

概览

我从零开始构建了一个语音代理，端到端延迟（挂断电话 → 第一个音节）平均约 400 ms。该系统包含完整的语音转文字（STT）→ 大语言模型（LLM）→ 语音合成（TTS）流程，支持干净的抢话（barge‑in），且不使用预先计算的响应。

关键因素

语音是一个轮次（turn‑taking）问题，而不是转录问题。仅靠 VAD（语音活动检测）无法满足需求；必须进行语义层面的轮次结束检测。
系统可以简化为一个循环：说话 ↔ 听话。两个转变——抢话时瞬间取消，轮次结束时瞬间响应——决定了用户体验。
STT → LLM → TTS 必须是流式处理。顺序管线在自然对话中根本不可行。
TTFT（首个 token 的生成时间）是决定因素。在语音交互中，首个 token 是关键路径。Groq 提供的约 80 ms TTFT 是最大的提升。
地理位置比提示词更重要。所有组件必须同地部署，否则在开始前就已经失去竞争力。

参考资料

评论: Hacker News discussion (Points: 11, Comments: 3)

相关文章

阅读更多 »

你将因价格被排除在最佳 AI 编码工具之外

引言安迪·沃霍尔曾著名地说：“这个国家的伟大之处在于，最富有的消费者基本上购买的东西与最贫穷的消费者是一样的。你可以……”

为什么没有 AI 游戏？

请提供需要翻译的文本内容。

我三年后的第一部科学视频（Physics Girl）

视频：我三年来的第一部科学视频，Physics Girl https://www.youtube.com/watch?v=B3m3AMRlYfc 讨论：Hacker News 评论 https://news.ycombinator.com/ite...

Physics Girl：Super‑Kamiokande – 通过探测中微子成像太阳 [视频]

Physics Girl：Super‑Kamiokande – 通过探测中微子成像太阳视频 https://www.youtube.com/watch?v=B3m3AMRlYfc Hacker News 讨论：Comments https:/...