今天我尝试将分散的功能整合为一次体验

发布: (2026年2月25日 GMT+8 12:56)
2 分钟阅读
原文: Dev.to

Source: Dev.to

概览

我创建这篇文章是为了参加 Gemini Live Agent Challenge
今天感觉所有独立的部分终于开始相互交流了。

实现细节

基础

  • 后端: Go 脚手架
  • 前端: Next.js PWA 渲染器

实时语音流

  • WebSocket 代理
  • 实时 API 工具循环

入职流程

  • OAuth 认证
  • 视频分析
  • 语音匹配
  • 过渡逻辑

重聚层增强

  • 情感对话规则
  • 记忆召回
  • 背景音乐(BGM)控制
  • 图像一致性

体验后

  • 相册生成
  • 分享页面

信心与部署

  • 单元测试和端到端测试覆盖率
  • Cloud Run 配置
  • 更新的 README

结果

  • 第一次完整运行实现了入职 → 重聚 → 相册的无缝衔接。
  • 将工作拆分为小的、可对应 issue 的 PR,保持了理智。
  • 屏幕从仪表盘的感觉转变为场景的感觉。

反思

  • 实时行为仍是让我感到谦卑的领域。
  • CI 和 lint 在我想走得太快时提醒了我保持诚实。
  • 维持情感连续性——语音、视觉和氛围——应当同步进行。
  • 我会继续像写人类日记一样记录这些日志,而不是机械的变更日志。
0 浏览
Back to Blog

相关文章

阅读更多 »