从“Why?”到Wow:在Google的5天AI Agents强化课程后构建Multi-Agent故事讲述者
Source: Dev.to
我的 “啊哈!” 时刻:AI 代理不仅仅是聊天机器人
在 5 天 AI Agents Intensive 之前,我对 AI 代理的认识主要停留在对话界面——智能聊天机器人可以回答问题。课程彻底打破了这种认知。
关键收获是 将代理视为专用工具的协调者 的概念。重点不在于让一个巨大的模型完成所有任务,而是让推理引擎把复杂问题拆解,并将子任务委派给最合适的 “专家”。这种从单体模型到模块化、工具中心思维的转变,是我最大的 “啊哈!” 时刻。
深入学习 Multi‑Agent Systems(第 1 天)和 Tools/MCP(第 2 天)彻底改变了我的思路。我不再考虑构建单一、全能的代理,而是开始思考创建一支由 “工作代理” 组成、由 “协调代理” 管理的团队。
前后对比
- 之前: “我该如何提示模型生成故事、图像和音频?”
- 之后: “协调代理如何管理三个专用代理——Writer(Gemini)、Illustrator(Flux.1)和 Narrator(OpenAI TTS)——并行工作,以更快、更高效地交付结果?”
这种演进直接激发了我的毕业设计项目。
毕业设计项目:Curiosity Storybook
在 Agents for Good 赛道,我构建了 Curiosity Storybook,一个将孩子的 “Why?” 转化为魔法般多感官学习体验的 AI 代理。它不提供干巴巴的答案,而是生成完整、个性化的故事书页面,包含:
- 故事,
- 插画,
- 音频朗读。
GitHub Repository
YouTube video
总体架构
- Frontend (UI/UX) – 使用 Gradio 构建的儿童友好界面,托管在 Hugging Face Spaces。
- Agent Orchestrator – 使用 Blaxel 管理的主代理,采用 Gemini 2.5 Pro 进行推理和内容生成。
- Tools
- 自定义 MCP (Model Context Protocol) 服务器,提供诸如朗读等特定任务的工具。
- 直接调用重计算服务处理图像生成等长时任务。
- AI Models
- Google Gemini 2.5 Pro – 生成主体故事和插画提示。
- Flux.1‑schnell – 高质量图像生成。
- OpenAI TTS – 音频朗读。
- Hyperbolic (Llama 3.3) – 超快速生成相关问题。
项目实现
- 实现了 Coordinator/Specialist pattern:在 Blaxel 中的主代理协调三个并行任务,每个任务由专用模型处理。观察故事、图像和音频同步生成,验证了该架构在用户体验上的优势。
- 应用了 Context Engineering(第 3 天):创建了
ConversationContext类,使用压缩(摘要历史)来为 “Question Suggester” 代理(Hyperbolic)提供输入。这样代理在无需完整对话记录的情况下即可提出相关后续问题,保持系统快速高效。 - 从一开始就集成 Observability(第 4 天):为所有工具调用添加日志,并通过
session_id进行追踪。当一次图像生成失败时,日志精准定位到出错步骤,展示了此支柱的即时价值。
关键经验
- Multi‑Agent Systems 是可落地的,而非仅是理论 – Coordinator/Specialist 模式在真实应用中有效。
- Context Engineering 是秘密武器 – 对话历史的摘要使得快速、相关的建议成为可能。
- Observability 不能等到事后再做 – 早期的日志和追踪简化了调试,提高了可靠性。
AI Agents Intensive 课程把我的思维模型从 “提示” 转向了 “系统”。“Curiosity Storybook” 是这段旅程的具体成果,展示了代理作为复杂问题求解引擎,而非简单聊天界面的新形象。