从“Why?”到Wow：在Google的5天AI Agents强化课程后构建Multi-Agent故事讲述者

发布: 1个月前 (2025年12月10日 GMT+8 13:58)

5 min read

Source: Dev.to

我的 “啊哈!” 时刻：AI 代理不仅仅是聊天机器人

在 5 天 AI Agents Intensive 之前，我对 AI 代理的认识主要停留在对话界面——智能聊天机器人可以回答问题。课程彻底打破了这种认知。

关键收获是 将代理视为专用工具的协调者 的概念。重点不在于让一个巨大的模型完成所有任务，而是让推理引擎把复杂问题拆解，并将子任务委派给最合适的 “专家”。这种从单体模型到模块化、工具中心思维的转变，是我最大的 “啊哈!” 时刻。

深入学习 Multi‑Agent Systems（第 1 天）和 Tools/MCP（第 2 天）彻底改变了我的思路。我不再考虑构建单一、全能的代理，而是开始思考创建一支由 “工作代理” 组成、由 “协调代理” 管理的团队。

之前： “我该如何提示模型生成故事、图像和音频？”
之后： “协调代理如何管理三个专用代理——Writer（Gemini）、Illustrator（Flux.1）和 Narrator（OpenAI TTS）——并行工作，以更快、更高效地交付结果？”

这种演进直接激发了我的毕业设计项目。

在 Agents for Good 赛道，我构建了 Curiosity Storybook，一个将孩子的 “Why?” 转化为魔法般多感官学习体验的 AI 代理。它不提供干巴巴的答案，而是生成完整、个性化的故事书页面，包含：

Frontend (UI/UX) – 使用 Gradio 构建的儿童友好界面，托管在 Hugging Face Spaces。
Agent Orchestrator – 使用 Blaxel 管理的主代理，采用 Gemini 2.5 Pro 进行推理和内容生成。
Tools
- 自定义 MCP (Model Context Protocol) 服务器，提供诸如朗读等特定任务的工具。
- 直接调用重计算服务处理图像生成等长时任务。
AI Models
- Google Gemini 2.5 Pro – 生成主体故事和插画提示。
- Flux.1‑schnell – 高质量图像生成。
- OpenAI TTS – 音频朗读。
- Hyperbolic (Llama 3.3) – 超快速生成相关问题。

实现了 Coordinator/Specialist pattern：在 Blaxel 中的主代理协调三个并行任务，每个任务由专用模型处理。观察故事、图像和音频同步生成，验证了该架构在用户体验上的优势。
应用了 Context Engineering（第 3 天）：创建了 ConversationContext 类，使用压缩（摘要历史）来为 “Question Suggester” 代理（Hyperbolic）提供输入。这样代理在无需完整对话记录的情况下即可提出相关后续问题，保持系统快速高效。
从一开始就集成 Observability（第 4 天）：为所有工具调用添加日志，并通过 session_id 进行追踪。当一次图像生成失败时，日志精准定位到出错步骤，展示了此支柱的即时价值。

AI Agents Intensive 课程把我的思维模型从 “提示” 转向了 “系统”。“Curiosity Storybook” 是这段旅程的具体成果，展示了代理作为复杂问题求解引擎，而非简单聊天界面的新形象。