Agent Factory 回顾：深入解析开放模型

发布: 2个月前 (2026年2月7日 GMT+8 03:10)

6 分钟阅读

原文: Dev.to

Source: Dev.to

欢迎回到The Agent Factory！在本期节目中，我们邀请了 DeepMind 的研究工程师 Ravin Kumar，一起探讨当前 AI 最热门的话题之一：构建和训练开源的代理模型。我们不仅仅使用代理，还深入探讨构建完整工厂线所需的全部工作——从数据收集和监督微调到强化学习和评估。

代理行业脉动

在深入研究之前，我们先看看 AI 代理快速发展的最新动向。

Gemini 2.5 Computer Use – Google 的新模型可以充当虚拟用户，能够与电脑屏幕交互、点击按钮、在表单中输入以及滚动页面。它将代理从“了解”转变为直接在浏览器中执行任务。
Vibe Coding in AI Studio – 一种全新的应用构建方式，你只需描述想要的应用“氛围”，AI 就会处理模板代码。还包括注释模式，可通过简单指令（如“把这个改成绿色”）细化特定 UI 元素。
DeepSeek‑OCR and Context Compression – DeepSeek 将文档视作图像来理解布局，将 10–20 个文本标记压缩为一个视觉标记。这大幅提升了长上下文任务的速度并降低了成本。
Google Veo 3.1 and Flow – 更新后的 AI 视频模型加入了丰富的音频生成和强大的编辑功能。使用 “Insert” 可添加角色，使用 “Remove” 可从已有镜头中抹除对象，为创作者提供迭代式控制。

Ravin Kumar 关于构建开放模型的分享

我们与 Ravin 坐下来，详细拆解了创建具备代理能力的开放模型的端到端流程。该流程类似于传统的机器学习生命周期，但包含了显著更复杂的组件。

定义代理数据

Timestamp: 14:55

Ravin 解释说，代理的训练数据与标准文本数据集截然不同。它始于识别用户真正的需求。数据本身是一系列轨迹——模型做出决策并使用工具的复杂示例。他们结合了人工策划的数据和由内部“教师”模型及 API 生成的合成数据，构建了一个供开放模型学习的实验场。

训练技术：SFT 与强化学习

Timestamp: 17:14

数据准备好后，训练过程采用两阶段方法。首先是 监督微调 (Supervised Fine‑Tuning, SFT)，在此阶段框架会更新模型权重，使其根据示例产生新的行为。为应对泛化——即原始训练数据中未出现的新情境——他们依赖 强化学习 (Reinforcement Learning, RL)。Ravin 强调了在 RL 中设定奖励的难度，警告模型容易出现“奖励黑客”现象，即模型只获取中间奖励而从未完成最终任务。

评估的关键性

Timestamp: 20:10

评估是整个过程最关键、风险最高的环节。不能仅仅信任训练流水线；必须进行严格的“期末考试”。他们使用广泛的公共基准来衡量模型的通用能力，同时结合特定的自定义评估，确保模型在预期的用户使用场景中安全且有效。

结论

与 Ravin Kumar 的对话阐明，构建开放的代理模型是一个高度结构化、严格的过程。它需要为数据创建高质量的轨迹，谨慎地结合监督学习和强化学习，并且关键是进行密集评估。

您的构建时刻

正如Ravin所建议的，最好的起点是从结尾开始。在编写任何训练代码之前，通过为你的代理构建一个包含 50 个示例的小型期末考试来定义成功的标准。如果无法衡量，就无法改进。我们也鼓励你尝试混合方法；例如，使用像 Gemini 这样的强大 API 模型作为路由器，并使用专门的开源模型来完成特定任务。

查看完整节目以获取更多细节，敬请期待我们的下期！

Agent Factory 回顾：深入解析开放模型

代理行业脉动

Ravin Kumar 关于构建开放模型的分享

定义代理数据

训练技术：SFT 与强化学习

评估的关键性

结论

您的构建时刻

相关文章

你的 AI Agent 刚拿到信用卡：全新推出 x402 Bazaar

Smartfind.ai

如何在 2 分钟内同步 Claude Code、OpenClaw 和 Codex 的 AI 技能

API Gateway 对比 Gateway API