5天强化课程的感受
Source: Dev.to
在这门课程之前,对我来说“AI 代理”基本上只是带有几个工具的语言模型(LLM)。在与 Google 和 Kaggle 合作的 5 天 AI 代理强化训练中,这种情况有了很大改变——代理开始更像可以遵循目标、调用正确工具并留下可实际检查的推理轨迹的队友。对 AI Canvas、路由和追踪的关注让我不再只关注单个提示,而是思考整个系统随时间的行为方式。
我记忆最深的核心理念是,代理并非仅仅是“聊天完成”,而是能够规划、执行、记忆并像其他软件一样可被衡量的系统。这种思维转变最终影响了我构建毕业项目 Orca 的方式。
5 天涵盖的内容
第 1 天 – 代理架构与“从提示到行动”
解释了用户请求如何转化为计划、工具调用和循环,而不是单一响应。
第 2 天 – 代理工具与最佳实践
介绍了代理开发套件(ADK)和模型上下文协议(MCP),用于安全地将代理连接到真实的 API 和服务。
第 3 天 – 代理会话与记忆
讨论了管理短期上下文和长期知识,以便代理能够处理多轮任务并记住重要信息。
第 4 天 – 代理可观测性与评估
重点关注在 ADK UI 和 CLI 中的日志记录、追踪、指标以及评估运行。
我构建的项目:Orca
Orca 使用自定义工具获取真实的市场数据、计算指标并进行预测,然后再让代理进行解释。关于工具调用和逐步追踪的实验室特别有帮助:当代理选择了错误的工具或误解了输出时,追踪能够清晰地显示错误。
课程如何塑造了 Orca
- Day 2 为我提供了构建数据和指标工具的可靠模板——小巧、专注且可预测,使代理能够安全调用它们。
- Day 3 启发我设计了一个记忆层,能够保留用户的风险画像、关注列表或以往决策,同时遵守金融数据隐私。
- Day 4 促使我将追踪和评估运行视为一等功能,使 Orca 从黑箱转变为金融决策的“玻璃箱”。
实验室中突出的要点
为每个代理分配明确且狭窄的角色,使系统更加简洁。与其使用一个负载过重的“智能”代理,不如使用几个专注的代理,这简化了调试和解释,对金融领域的透明度和信任至关重要。
我的代理观念如何改变
对于 Orca 来说,目标从黑箱模型转变为玻璃箱体验。追踪、中间推理以及代理之间的小型辩论现在成为产品体验的一部分,尤其在用户做出真实金钱决策时。
我接下来想如何推进
对我而言,最大的转变是我现在提出的问题:不再仅仅是“如何提示这个模型?”,而是“如何设计一个人们可以依赖、调试并随时间改进的代理系统?” Orca 是我首次认真尝试回答这个问题,而这次强化训练让我觉得这完全可行。
亲自尝试 Orca
- 实时应用:
- GitHub 仓库:
- 演示视频(2 分钟):