从代码到认知:我的 AI Agents 密集之旅
Source: Dev.to

改变我视角的关键收获
1. 代理是架构,而不仅仅是功能
最触动我的点: 第一天对传统 LLM 应用和代理式架构的区分让我大彻大悟。我意识到自己一直在构建复杂的提示链,却应该在设计自主系统。
转变: 从 “我如何让 LLM 做 X?” 转向 “我如何构建一个能够推理、计划和行动的系统?”彻底改变了一切。多代理系统的 codelab 展示了具有明确职责的专用代理如何优于单体方案。
实践洞见: 在使用 ADK 构建我的第一个多代理系统时,我看到将复杂任务拆解为代理团队的方式类似于有效的软件架构——单一职责原则,只是针对 AI。
2. 工具是思考与行动的桥梁
最触动我的点: 第二天深入探讨 Model Context Protocol (MCP) 时,我发现代理的力量不仅在于推理,更在于它与真实世界交互的能力。
演进过程: 我从把函数调用视为技术特性,转变为把它视为将 LLM 从文本生成器转变为有能力的助理的根本机制。
突破时刻: 实现带有人类在环审批的长时运行操作,解决了我一直面临的实际问题:如何构建既自主又可追责的代理。 “暂停、请求批准、恢复” 的模式成为我负责任的代理设计框架。
MCP 洞见: Model Context Protocol 对工具发现和使用的标准化,让我明白应该构建可互操作的系统,而不是孤立实现。
3. 上下文工程是秘密武器
最触动我的点: 第三天对会话和记忆的探索根本改变了我对有状态 AI 系统的思考方式。
关键区分:
- 会话(Sessions): 即时对话上下文——类似工作记忆。
- 记忆(Memory): 跨交互的长期持久化——类似情景记忆。
“啊哈”时刻: 构建真正具备记忆的代理并不是简单地拼接对话历史,而是需要精心的上下文工程:决定记住什么、摘要什么、忘记什么。正是在这里,代理从聊天机器人转变为真正的助理。
实践应用: 同时实现短期(会话)和长期(持久)记忆让我认识到上下文窗口管理和模型本身同等重要。关键不是把所有信息塞进上下文,而是进行信息架构的策略性设计。
4. 不能衡量的东西无法改进
最触动我的点: 第四天的可观测性框架——日志、追踪和指标——是最直接实用的课程。
启示: 我一直在盲目构建代理。没有合适的日志和追踪,调试就像在看茶叶。三大支柱彻底改变了我的开发流程:
- 日志(Logs,日记): 记录每一个决策点。
- 追踪(Traces,叙事): 可视化端到端执行路径。
- 指标(Metrics,健康报告): 可量化的性能指标。
LLM‑as‑a‑Judge: 使用语言模型评估其他语言模型起初感觉很 meta,但在规模化质量评估上非常出色。配合 HITL 评估,形成了强大的反馈闭环。
思维转变: 质量不是一次性检查,而是持续的纪律。evaluate‑observe‑improve 循环必须从第一天起就嵌入开发过程。
5. 生产环境是另一个宇宙
最触动我的点: 第五天聚焦原型到生产的差距,让我感到谦卑且受益匪浅。
现实检验: 我的本地 notebook 实验与生产就绪系统相差甚远。白皮书强调的:
- 可扩展性和部署模式
- 企业治理与可靠性
- 通过 A2A Protocol 实现的代理互操作性
- 安全、身份和受限策略
这些不是锦上添花,而是真实世界代理系统的基本要求。
A2A Protocol 突破: 构建通过 Agent‑to‑Agent Protocol 通信的多代理系统,让我看到了未来:跨组织边界的专用代理生态,而非单体 AI 服务。
部署洞见: Vertex AI Agent Engine codelab 展示,部署代理不仅是托管代码,更是创建可靠、可监控、可扩展的服务并做好 API 管理。
我的认知如何演进
课程前
- Agents = 带函数调用的聊天机器人
- 关注点: 从 LLM 获得响应
- 方法: 原型导向,本地实验
- 评估: 手动测试,凭感觉判断质量
课程后
- Agents = 具备推理、计划、记忆和工具使用的自主系统
- 关注点: 架构智能系统以解决真实问题
- 方法: 生产优先思维,内置可观测性和评估
- 评估: 系统化质量框架,配合指标和持续改进
更大的图景
这门课程让我明白,我们不只是构建更好的聊天机器人,而是在创造一种全新的软件类别。代理的出现相当于从过程式编程到面向对象编程的转变,或从单体架构到微服务的跃迁。
课程中引入的 Agent Ops 学科——融合开发、运维、治理和质量——类似于 DevOps 对软件交付的变革。我们正处于这场变革的起点,掌握这些基础现在就能让我们在未来的演进中占据主动。
构建生产级代理的关键要点
- 先做架构: 在写代码前定义代理职责、工具和交互模式。
- 记忆是策略性资源: 并非所有信息都需要记住,需有意识地设计上下文工程。
- 工具是代理的双手: 投资于稳健、设计良好的工具接口并明确合约。
- 可观测性不可妥协: 从第一天起就构建日志、追踪和指标,而非事后补丁。
- 持续评估: 质量是一种实践,而非阶段。LLM‑as‑a‑Judge + HITL 构成反馈回路。
- 系统思维: 多代理架构配合专职角色优于通用模型。
- 生产环境不同: 原型可以随意,但要提前规划原型到生产的差距。
- 互操作性重要: MCP、A2A 等标准不是限制,而是生态级创新的助推器。
接下来:应用这些收获
有了这些洞见,我正用全新的框架来进行 AI 代理开发:
- 这个代理的具体职责是什么?
- 它需要哪些工具来完成职责?
- 它将如何维护上下文和记忆?
- 我将如何观察并评估它的行为?
- 从原型到生产的路径是什么?
- 它将如何与其他代理互操作?
AI Agents Intensive 不仅教会我使用 Gemini 和 ADK,更为我提供了思考自主 AI 系统的心智模型。随着我们从原型时代迈向生产时代,这一模型将指引每一次设计决策。