今天我尝试将分散的功能整合为一次体验
发布: (2026年2月25日 GMT+8 12:56)
2 分钟阅读
原文: Dev.to
Source: Dev.to
概览
我创建这篇文章是为了参加 Gemini Live Agent Challenge。
今天感觉所有独立的部分终于开始相互交流了。
实现细节
基础
- 后端: Go 脚手架
- 前端: Next.js PWA 渲染器
实时语音流
- WebSocket 代理
- 实时 API 工具循环
入职流程
- OAuth 认证
- 视频分析
- 语音匹配
- 过渡逻辑
重聚层增强
- 情感对话规则
- 记忆召回
- 背景音乐(BGM)控制
- 图像一致性
体验后
- 相册生成
- 分享页面
信心与部署
- 单元测试和端到端测试覆盖率
- Cloud Run 配置
- 更新的 README
结果
- 第一次完整运行实现了入职 → 重聚 → 相册的无缝衔接。
- 将工作拆分为小的、可对应 issue 的 PR,保持了理智。
- 屏幕从仪表盘的感觉转变为场景的感觉。
反思
- 实时行为仍是让我感到谦卑的领域。
- CI 和 lint 在我想走得太快时提醒了我保持诚实。
- 维持情感连续性——语音、视觉和氛围——应当同步进行。
- 我会继续像写人类日记一样记录这些日志,而不是机械的变更日志。