Agent Factory 回顾:深入解析开放模型
Source: Dev.to
欢迎回到The Agent Factory!在本期节目中,我们邀请了 DeepMind 的研究工程师 Ravin Kumar,一起探讨当前 AI 最热门的话题之一:构建和训练开源的代理模型。我们不仅仅使用代理,还深入探讨构建完整工厂线所需的全部工作——从数据收集和监督微调到强化学习和评估。
代理行业脉动
在深入研究之前,我们先看看 AI 代理快速发展的最新动向。
- Gemini 2.5 Computer Use – Google 的新模型可以充当虚拟用户,能够与电脑屏幕交互、点击按钮、在表单中输入以及滚动页面。它将代理从“了解”转变为直接在浏览器中执行任务。
- Vibe Coding in AI Studio – 一种全新的应用构建方式,你只需描述想要的应用“氛围”,AI 就会处理模板代码。还包括注释模式,可通过简单指令(如“把这个改成绿色”)细化特定 UI 元素。
- DeepSeek‑OCR and Context Compression – DeepSeek 将文档视作图像来理解布局,将 10–20 个文本标记压缩为一个视觉标记。这大幅提升了长上下文任务的速度并降低了成本。
- Google Veo 3.1 and Flow – 更新后的 AI 视频模型加入了丰富的音频生成和强大的编辑功能。使用 “Insert” 可添加角色,使用 “Remove” 可从已有镜头中抹除对象,为创作者提供迭代式控制。
Ravin Kumar 关于构建开放模型的分享
我们与 Ravin 坐下来,详细拆解了创建具备代理能力的开放模型的端到端流程。该流程类似于传统的机器学习生命周期,但包含了显著更复杂的组件。
定义代理数据
Ravin 解释说,代理的训练数据与标准文本数据集截然不同。它始于识别用户真正的需求。数据本身是一系列轨迹——模型做出决策并使用工具的复杂示例。他们结合了人工策划的数据和由内部“教师”模型及 API 生成的合成数据,构建了一个供开放模型学习的实验场。
训练技术:SFT 与强化学习
数据准备好后,训练过程采用两阶段方法。首先是 监督微调 (Supervised Fine‑Tuning, SFT),在此阶段框架会更新模型权重,使其根据示例产生新的行为。为应对泛化——即原始训练数据中未出现的新情境——他们依赖 强化学习 (Reinforcement Learning, RL)。Ravin 强调了在 RL 中设定奖励的难度,警告模型容易出现“奖励黑客”现象,即模型只获取中间奖励而从未完成最终任务。
评估的关键性
评估是整个过程最关键、风险最高的环节。不能仅仅信任训练流水线;必须进行严格的“期末考试”。他们使用广泛的公共基准来衡量模型的通用能力,同时结合特定的自定义评估,确保模型在预期的用户使用场景中安全且有效。
结论
与 Ravin Kumar 的对话阐明,构建开放的代理模型是一个高度结构化、严格的过程。它需要为数据创建高质量的轨迹,谨慎地结合监督学习和强化学习,并且关键是进行密集评估。
您的构建时刻
正如Ravin所建议的,最好的起点是从结尾开始。在编写任何训练代码之前,通过为你的代理构建一个包含 50 个示例的小型期末考试来定义成功的标准。如果无法衡量,就无法改进。我们也鼓励你尝试混合方法;例如,使用像 Gemini 这样的强大 API 模型作为路由器,并使用专门的开源模型来完成特定任务。
查看完整节目以获取更多细节,敬请期待我们的下期!
