[Paper] 闭环：通过多智能体角色扮演合成无限工具使用数据

发布: 1周前 (2025年12月30日 GMT+8 01:12)

7 min read

原文: arXiv

Source: arXiv - 2512.23611v1

（请提供您希望翻译的具体文本内容，我将按照要求保留链接并进行简体中文翻译。）

概述

一篇新论文 “Close the Loop: Synthesizing Infinite Tool-Use Data via Multi‑Agent Role‑Playing” 提出了一个全自动流水线——InfTool——它能够在没有任何人工编写示例的情况下教会大型语言模型（LLMs）调用外部 API。通过让三个专门的代理分别生成、验证和完善工具调用轨迹，系统能够循环自我提升，将原始 API 规范转化为海量、高质量的训练数据。

关键贡献

InfTool 框架： 一个闭环、多代理系统，仅凭 API 文档即可合成无限的工具使用示例。
三个协同代理：
1. 用户模拟器 – 生成真实的用户请求。
2. 工具调用助理 – 决定调用哪个 API 以及如何调用。
3. MCP 服务器 – 执行调用、检查结果并提供反馈。
组相对策略优化（GRPO）： 一种强化学习风格的更新方式，通过门控奖励训练助理，鼓励其填补自身能力缺口。
零人工标注： 所有数据均由系统生成、验证并用于训练，无需任何人工标记。
领先的性能表现： 一个 320 亿参数的模型在 Berkeley Function‑Calling Leaderboard 上的准确率从 19.8 % 提升至 70.9 %，超越了许多更大的商业模型。

方法论

输入 – API 规范: 系统从 OpenAPI 风格的描述（端点、参数、返回类型）开始。无需示例。
角色扮演循环:
- 用户模拟器 起草一个自然语言请求，可能需要使用某个 API（例如，“显示东京明天的天气”。）
- 工具调用助理（一个 LLM）解释请求，选择合适的 API，并生成精确的函数调用（JSON 参数、HTTP 方法等）。
- MCP 服务器（轻量级执行沙箱）对模拟或真实服务执行调用，返回响应，并标记任何不匹配或错误。
自我验证与过滤: 仅保留通过 MCP 检查的轨迹；其余作为负例反馈。
通过 GRPO 进行训练: 使用组相对奖励更新助理的策略，将每条新轨迹与基线集合比较，奖励新颖、正确且多样的调用，惩罚重复或失败。
迭代改进: 新训练的助理产生更高质量的请求，循环重复——因此称为“闭环”。

整个流水线在普通 GPU 集群上自动运行，几天内即可生成数百万个已验证的示例。

Results & Findings

Metric	Baseline (32B)	After InfTool	Relative Gain
BFCL accuracy	19.8 %	70.9 %	+258 %
Data efficiency (synthetic vs. human)	–	100 % synthetic	—
Model size needed for comparable performance	320 B (Claude‑Opus)	32 B	—

关键观察

多样性很重要： 代理生成的多轮、多 API 序列覆盖了单模型合成流水线遗漏的边缘案例。
自我目标学习： GRPO 推动助手去探索其当前薄弱的 API，自动平衡数据集。
无需人工瓶颈： 整个改进全部来源于自动生成的数据，消除了昂贵的标注周期。

实际意义

快速原型化工具驱动的代理: 开发者只需将 API 文档输入 InfTool，即可获得一个可直接微调、能够可靠调用这些服务的模型。
成本效益的扩展: 企业可以为内部 LLM 启动工具使用能力，而无需雇佣标注员，从而在数据标注预算上节省数百万。
持续改进流水线: 随着新 API 的加入，同一循环可以自动生成新的训练数据，使助手保持最新，无需人工回归测试。
更好的沙箱测试: MCP Server 像自动化集成测试套件一样，能够在开发周期的早期捕获不匹配。
开源潜力: 若以库的形式发布，InfTool 有望成为 LLM 即服务平台（如 LangChain、LlamaIndex）中用于自动生成函数调用数据集的标准组件。

限制与未来工作

依赖准确的 API 规范： 不完整或含糊的文档可能导致生成的轨迹出现错误，而循环可能检测不到。
模拟服务与真实服务： MCP 服务器经常使用模拟响应；将其桥接到真实生产 API（速率限制、身份验证）仍是工程难题。
验证的可扩展性： 虽然循环是自动化的，但验证极大或有状态的工作流可能会变得计算成本高昂。
对非 REST 接口的泛化： 当前设计面向 HTTP/JSON API；将其扩展到 GraphQL、gRPC 或自定义 SDK 是未来工作。
安全性与偏见检查： 合成数据仍可能继承基础大模型的偏见；将显式安全过滤器集成到循环中是一个开放的研究方向。

总体而言，InfTool 证明了自我维持的多代理角色扮演系统能够弥补 LLM 在工具使用方面的数据缺口，为真正的自主 AI 助手铺平道路，这类助手可以在大规模部署且几乎不需要人工干预。

作者

Yuwen Li
Wei Zhang
Zelong Huang
Mason Yang
Jiajun Wu
Shawn Guo
Huahao Hu
Lingyi Sun
Jian Yang
Mingjie Tang
Byran Dai

论文信息

arXiv ID: 2512.23611v1
分类: cs.CL
发表时间: 2025年12月29日
PDF: 下载 PDF

[Paper] 闭环：通过多智能体角色扮演合成无限工具使用数据

概述

关键贡献

方法论

Results & Findings

关键观察

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 光鲜不一定是金子：Reference-Free Counterfactual Financial Misinformation Detection 基准

[Paper] FLEx：语言建模与少样本语言解释

[Paper] LLMberjack：用于多方对话创建的辩论树引导裁剪

[Paper] ContextFocus：激活引导实现大语言模型的上下文忠实性