从“Why?”到Wow:在Google的5天AI Agents强化课程后构建Multi-Agent故事讲述者

发布: (2025年12月10日 GMT+8 13:58)
5 min read
原文: Dev.to

Source: Dev.to

我的 “啊哈!” 时刻:AI 代理不仅仅是聊天机器人

在 5 天 AI Agents Intensive 之前,我对 AI 代理的认识主要停留在对话界面——智能聊天机器人可以回答问题。课程彻底打破了这种认知。

关键收获是 将代理视为专用工具的协调者 的概念。重点不在于让一个巨大的模型完成所有任务,而是让推理引擎把复杂问题拆解,并将子任务委派给最合适的 “专家”。这种从单体模型到模块化、工具中心思维的转变,是我最大的 “啊哈!” 时刻。

深入学习 Multi‑Agent Systems(第 1 天)和 Tools/MCP(第 2 天)彻底改变了我的思路。我不再考虑构建单一、全能的代理,而是开始思考创建一支由 “工作代理” 组成、由 “协调代理” 管理的团队。

前后对比

  • 之前: “我该如何提示模型生成故事、图像和音频?”
  • 之后: “协调代理如何管理三个专用代理——Writer(Gemini)、Illustrator(Flux.1)和 Narrator(OpenAI TTS)——并行工作,以更快、更高效地交付结果?”

这种演进直接激发了我的毕业设计项目。

毕业设计项目:Curiosity Storybook

Agents for Good 赛道,我构建了 Curiosity Storybook,一个将孩子的 “Why?” 转化为魔法般多感官学习体验的 AI 代理。它不提供干巴巴的答案,而是生成完整、个性化的故事书页面,包含:

  • 故事,
  • 插画,
  • 音频朗读。

GitHub Repository
YouTube video

总体架构

  1. Frontend (UI/UX) – 使用 Gradio 构建的儿童友好界面,托管在 Hugging Face Spaces。
  2. Agent Orchestrator – 使用 Blaxel 管理的主代理,采用 Gemini 2.5 Pro 进行推理和内容生成。
  3. Tools
    • 自定义 MCP (Model Context Protocol) 服务器,提供诸如朗读等特定任务的工具。
    • 直接调用重计算服务处理图像生成等长时任务。
  4. AI Models
    • Google Gemini 2.5 Pro – 生成主体故事和插画提示。
    • Flux.1‑schnell – 高质量图像生成。
    • OpenAI TTS – 音频朗读。
    • Hyperbolic (Llama 3.3) – 超快速生成相关问题。

项目实现

  • 实现了 Coordinator/Specialist pattern:在 Blaxel 中的主代理协调三个并行任务,每个任务由专用模型处理。观察故事、图像和音频同步生成,验证了该架构在用户体验上的优势。
  • 应用了 Context Engineering(第 3 天):创建了 ConversationContext 类,使用压缩(摘要历史)来为 “Question Suggester” 代理(Hyperbolic)提供输入。这样代理在无需完整对话记录的情况下即可提出相关后续问题,保持系统快速高效。
  • 从一开始就集成 Observability(第 4 天):为所有工具调用添加日志,并通过 session_id 进行追踪。当一次图像生成失败时,日志精准定位到出错步骤,展示了此支柱的即时价值。

关键经验

  • Multi‑Agent Systems 是可落地的,而非仅是理论 – Coordinator/Specialist 模式在真实应用中有效。
  • Context Engineering 是秘密武器 – 对话历史的摘要使得快速、相关的建议成为可能。
  • Observability 不能等到事后再做 – 早期的日志和追踪简化了调试,提高了可靠性。

AI Agents Intensive 课程把我的思维模型从 “提示” 转向了 “系统”。“Curiosity Storybook” 是这段旅程的具体成果,展示了代理作为复杂问题求解引擎,而非简单聊天界面的新形象。

Back to Blog

相关文章

阅读更多 »

我的5天AI Agents之旅 🚀

介绍 我参加了与 Google 和 Kaggle 合作的 5 天 AI Agents 强化课程 https://www.kaggle.com/learn-guide/5-day-agents,以了解现代 AI ag...