[Paper] 闭环:通过多智能体角色扮演合成无限工具使用数据
发布: (2025年12月30日 GMT+8 01:12)
7 min read
原文: arXiv
Source: arXiv - 2512.23611v1
(请提供您希望翻译的具体文本内容,我将按照要求保留链接并进行简体中文翻译。)
概述
一篇新论文 “Close the Loop: Synthesizing Infinite Tool-Use Data via Multi‑Agent Role‑Playing” 提出了一个全自动流水线——InfTool——它能够在没有任何人工编写示例的情况下教会大型语言模型(LLMs)调用外部 API。通过让三个专门的代理分别生成、验证和完善工具调用轨迹,系统能够循环自我提升,将原始 API 规范转化为海量、高质量的训练数据。
关键贡献
- InfTool 框架: 一个闭环、多代理系统,仅凭 API 文档即可合成无限的工具使用示例。
- 三个协同代理:
- 用户模拟器 – 生成真实的用户请求。
- 工具调用助理 – 决定调用哪个 API 以及如何调用。
- MCP 服务器 – 执行调用、检查结果并提供反馈。
- 组相对策略优化(GRPO): 一种强化学习风格的更新方式,通过门控奖励训练助理,鼓励其填补自身能力缺口。
- 零人工标注: 所有数据均由系统生成、验证并用于训练,无需任何人工标记。
- 领先的性能表现: 一个 320 亿参数的模型在 Berkeley Function‑Calling Leaderboard 上的准确率从 19.8 % 提升至 70.9 %,超越了许多更大的商业模型。
方法论
- 输入 – API 规范: 系统从 OpenAPI 风格的描述(端点、参数、返回类型)开始。无需示例。
- 角色扮演循环:
- 用户模拟器 起草一个自然语言请求,可能需要使用某个 API(例如,“显示东京明天的天气”。)
- 工具调用助理(一个 LLM)解释请求,选择合适的 API,并生成精确的函数调用(JSON 参数、HTTP 方法等)。
- MCP 服务器(轻量级执行沙箱)对模拟或真实服务执行调用,返回响应,并标记任何不匹配或错误。
- 自我验证与过滤: 仅保留通过 MCP 检查的轨迹;其余作为负例反馈。
- 通过 GRPO 进行训练: 使用组相对奖励更新助理的策略,将每条新轨迹与基线集合比较,奖励新颖、正确且多样的调用,惩罚重复或失败。
- 迭代改进: 新训练的助理产生更高质量的请求,循环重复——因此称为“闭环”。
整个流水线在普通 GPU 集群上自动运行,几天内即可生成数百万个已验证的示例。
Results & Findings
| Metric | Baseline (32B) | After InfTool | Relative Gain |
|---|---|---|---|
| BFCL accuracy | 19.8 % | 70.9 % | +258 % |
| Data efficiency (synthetic vs. human) | – | 100 % synthetic | — |
| Model size needed for comparable performance | 320 B (Claude‑Opus) | 32 B | — |
关键观察
- 多样性很重要: 代理生成的多轮、多 API 序列覆盖了单模型合成流水线遗漏的边缘案例。
- 自我目标学习: GRPO 推动助手去探索其当前薄弱的 API,自动平衡数据集。
- 无需人工瓶颈: 整个改进全部来源于自动生成的数据,消除了昂贵的标注周期。
实际意义
- 快速原型化工具驱动的代理: 开发者只需将 API 文档输入 InfTool,即可获得一个可直接微调、能够可靠调用这些服务的模型。
- 成本效益的扩展: 企业可以为内部 LLM 启动工具使用能力,而无需雇佣标注员,从而在数据标注预算上节省数百万。
- 持续改进流水线: 随着新 API 的加入,同一循环可以自动生成新的训练数据,使助手保持最新,无需人工回归测试。
- 更好的沙箱测试: MCP Server 像自动化集成测试套件一样,能够在开发周期的早期捕获不匹配。
- 开源潜力: 若以库的形式发布,InfTool 有望成为 LLM 即服务平台(如 LangChain、LlamaIndex)中用于自动生成函数调用数据集的标准组件。
限制与未来工作
- 依赖准确的 API 规范: 不完整或含糊的文档可能导致生成的轨迹出现错误,而循环可能检测不到。
- 模拟服务与真实服务: MCP 服务器经常使用模拟响应;将其桥接到真实生产 API(速率限制、身份验证)仍是工程难题。
- 验证的可扩展性: 虽然循环是自动化的,但验证极大或有状态的工作流可能会变得计算成本高昂。
- 对非 REST 接口的泛化: 当前设计面向 HTTP/JSON API;将其扩展到 GraphQL、gRPC 或自定义 SDK 是未来工作。
- 安全性与偏见检查: 合成数据仍可能继承基础大模型的偏见;将显式安全过滤器集成到循环中是一个开放的研究方向。
总体而言,InfTool 证明了自我维持的多代理角色扮演系统能够弥补 LLM 在工具使用方面的数据缺口,为真正的自主 AI 助手铺平道路,这类助手可以在大规模部署且几乎不需要人工干预。
作者
- Yuwen Li
- Wei Zhang
- Zelong Huang
- Mason Yang
- Jiajun Wu
- Shawn Guo
- Huahao Hu
- Lingyi Sun
- Jian Yang
- Mingjie Tang
- Byran Dai
论文信息
- arXiv ID: 2512.23611v1
- 分类: cs.CL
- 发表时间: 2025年12月29日
- PDF: 下载 PDF