missless 在实时视频方面失败 — 所以我们转向 vibeCat
发布: (2026年3月4日 GMT+8 13:19)
2 分钟阅读
原文: Dev.to
Source: Dev.to
概述
三周的工作。一个可工作的 WebSocket 代理、Cloud Run 部署、Lyria BGM 生成、75 次提交。然后实时视频生成根本无法工作。
我创建这篇文章是为了参加 Gemini Live Agent Challenge。如果你阅读过我之前关于 missless 的帖子——WebSocket cascade from hell,安全漏洞,凌晨 3 点的调试会话——这篇文章是那个故事的结束,也是新故事的开始。
破碎的承诺
missless 本应是一个 “虚拟团聚” 应用。上传一段你想念的人的视频,AI 重建他们的个性和声音,你就可以进行实时对话——带视频。不仅仅是音频。视频。一个会动、会做出反应、会对你说话的面孔。
- 音频部分运行得非常好。Gemini Live API 负责语音合成,Go 后端代理 WebSocket 流,Cloud Run 保持其活跃。我与 AI 重建的人格进行实时语音对话,感觉真的很感人。
- 但产品愿景需要 实时视频生成:屏幕上的面孔在说话时移动嘴唇,在你说情感话语时改变表情。这是全部意义所在——你不仅是听到你想念的人,还 看到 他们。
而这正是所有东西崩溃的地方。
为什么实时视频生成让我们失败
技术现实非常残酷:
| 问题 | 为什么重要 |
|---|---|
| 延迟 | 视频生成模型无法足够快地生成帧以满足实时对话的需求。我们需要 *** |
GeminiLiveAgentChallenge