今天我尝试将分散的功能整合为一次体验

发布: 3天前 (2026年2月25日 GMT+8 12:56)

2 分钟阅读

原文: Dev.to

Source: Dev.to

概览

我创建这篇文章是为了参加 Gemini Live Agent Challenge。
今天感觉所有独立的部分终于开始相互交流了。

实现细节

基础

后端： Go 脚手架
前端： Next.js PWA 渲染器

实时语音流

WebSocket 代理
实时 API 工具循环

入职流程

OAuth 认证
视频分析
语音匹配
过渡逻辑

重聚层增强

情感对话规则
记忆召回
背景音乐（BGM）控制
图像一致性

体验后

相册生成
分享页面

信心与部署

单元测试和端到端测试覆盖率
Cloud Run 配置
更新的 README

结果

第一次完整运行实现了入职 → 重聚 → 相册的无缝衔接。
将工作拆分为小的、可对应 issue 的 PR，保持了理智。
屏幕从仪表盘的感觉转变为场景的感觉。

反思

实时行为仍是让我感到谦卑的领域。
CI 和 lint 在我想走得太快时提醒了我保持诚实。
维持情感连续性——语音、视觉和氛围——应当同步进行。
我会继续像写人类日记一样记录这些日志，而不是机械的变更日志。

相关文章

阅读更多 »

如何修复多服务部署中的身份验证令牌不匹配

TL;DR 身份验证令牌在 Railway、VPS 和本地 Mac Mini 之间不匹配，导致部分 API 失败。通过同步 INTERNAL_AUTH_SEC 解决了此问题……

使用 OpenWebUI 和 llama.cpp 运行您自己的本地 AI 聊天 - Windows

TL;DR 本地的类似 ChatGPT 的堆栈，使用 OpenWebUI 作为 UI，llama.cpp 作为推理服务器，使用来自 Hugging Face 的 GGUF 模型。所有组件通过……

用 AI 驱动的类别建议革新商标创建

概述：通过在我们包含数百万 USPTO 商标记录的庞大数据库上微调定制的 large language model LLM，我们已经开发出我们认为 i...

停止手动编写 URDF：我们如何无缝连接 Blender 与 ROS 2

问题你花了数周时间在 CAD 中设计一个外观优美、机械结构合理的机器人。然后你需要在 Gazebo 中对其进行仿真，或使用 ROS 2 来控制它。突然，…