missless 在实时视频方面失败 — 所以我们转向 vibeCat

发布: 3天前 (2026年3月4日 GMT+8 13:19)

2 分钟阅读

Source: Dev.to

概述

三周的工作。一个可工作的 WebSocket 代理、Cloud Run 部署、Lyria BGM 生成、75 次提交。然后实时视频生成根本无法工作。

我创建这篇文章是为了参加 Gemini Live Agent Challenge。如果你阅读过我之前关于 missless 的帖子——WebSocket cascade from hell，安全漏洞，凌晨 3 点的调试会话——这篇文章是那个故事的结束，也是新故事的开始。

missless 本应是一个 “虚拟团聚” 应用。上传一段你想念的人的视频，AI 重建他们的个性和声音，你就可以进行实时对话——带视频。不仅仅是音频。视频。一个会动、会做出反应、会对你说话的面孔。

音频部分运行得非常好。Gemini Live API 负责语音合成，Go 后端代理 WebSocket 流，Cloud Run 保持其活跃。我与 AI 重建的人格进行实时语音对话，感觉真的很感人。
但产品愿景需要 实时视频生成：屏幕上的面孔在说话时移动嘴唇，在你说情感话语时改变表情。这是全部意义所在——你不仅是听到你想念的人，还看到他们。

而这正是所有东西崩溃的地方。

技术现实非常残酷：

问题	为什么重要
延迟	视频生成模型无法足够快地生成帧以满足实时对话的需求。我们需要 ***

GeminiLiveAgentChallenge