[Paper] 闭环:通过多智能体角色扮演合成无限工具使用数据

发布: (2025年12月30日 GMT+8 01:12)
7 min read
原文: arXiv

Source: arXiv - 2512.23611v1

(请提供您希望翻译的具体文本内容,我将按照要求保留链接并进行简体中文翻译。)

概述

一篇新论文 “Close the Loop: Synthesizing Infinite Tool-Use Data via Multi‑Agent Role‑Playing” 提出了一个全自动流水线——InfTool——它能够在没有任何人工编写示例的情况下教会大型语言模型(LLMs)调用外部 API。通过让三个专门的代理分别生成、验证和完善工具调用轨迹,系统能够循环自我提升,将原始 API 规范转化为海量、高质量的训练数据。

关键贡献

  • InfTool 框架: 一个闭环、多代理系统,仅凭 API 文档即可合成无限的工具使用示例。
  • 三个协同代理:
    1. 用户模拟器 – 生成真实的用户请求。
    2. 工具调用助理 – 决定调用哪个 API 以及如何调用。
    3. MCP 服务器 – 执行调用、检查结果并提供反馈。
  • 组相对策略优化(GRPO): 一种强化学习风格的更新方式,通过门控奖励训练助理,鼓励其填补自身能力缺口。
  • 零人工标注: 所有数据均由系统生成、验证并用于训练,无需任何人工标记。
  • 领先的性能表现: 一个 320 亿参数的模型在 Berkeley Function‑Calling Leaderboard 上的准确率从 19.8 % 提升至 70.9 %,超越了许多更大的商业模型。

方法论

  1. 输入 – API 规范: 系统从 OpenAPI 风格的描述(端点、参数、返回类型)开始。无需示例。
  2. 角色扮演循环:
    • 用户模拟器 起草一个自然语言请求,可能需要使用某个 API(例如,“显示东京明天的天气”。)
    • 工具调用助理(一个 LLM)解释请求,选择合适的 API,并生成精确的函数调用(JSON 参数、HTTP 方法等)。
    • MCP 服务器(轻量级执行沙箱)对模拟或真实服务执行调用,返回响应,并标记任何不匹配或错误。
  3. 自我验证与过滤: 仅保留通过 MCP 检查的轨迹;其余作为负例反馈。
  4. 通过 GRPO 进行训练: 使用组相对奖励更新助理的策略,将每条新轨迹与基线集合比较,奖励新颖、正确且多样的调用,惩罚重复或失败。
  5. 迭代改进: 新训练的助理产生更高质量的请求,循环重复——因此称为“闭环”。

整个流水线在普通 GPU 集群上自动运行,几天内即可生成数百万个已验证的示例。

Results & Findings

MetricBaseline (32B)After InfToolRelative Gain
BFCL accuracy19.8 %70.9 %+258 %
Data efficiency (synthetic vs. human)100 % synthetic
Model size needed for comparable performance320 B (Claude‑Opus)32 B

关键观察

  • 多样性很重要: 代理生成的多轮、多 API 序列覆盖了单模型合成流水线遗漏的边缘案例。
  • 自我目标学习: GRPO 推动助手去探索其当前薄弱的 API,自动平衡数据集。
  • 无需人工瓶颈: 整个改进全部来源于自动生成的数据,消除了昂贵的标注周期。

实际意义

  • 快速原型化工具驱动的代理: 开发者只需将 API 文档输入 InfTool,即可获得一个可直接微调、能够可靠调用这些服务的模型。
  • 成本效益的扩展: 企业可以为内部 LLM 启动工具使用能力,而无需雇佣标注员,从而在数据标注预算上节省数百万。
  • 持续改进流水线: 随着新 API 的加入,同一循环可以自动生成新的训练数据,使助手保持最新,无需人工回归测试。
  • 更好的沙箱测试: MCP Server 像自动化集成测试套件一样,能够在开发周期的早期捕获不匹配。
  • 开源潜力: 若以库的形式发布,InfTool 有望成为 LLM 即服务平台(如 LangChain、LlamaIndex)中用于自动生成函数调用数据集的标准组件。

限制与未来工作

  • 依赖准确的 API 规范: 不完整或含糊的文档可能导致生成的轨迹出现错误,而循环可能检测不到。
  • 模拟服务与真实服务: MCP 服务器经常使用模拟响应;将其桥接到真实生产 API(速率限制、身份验证)仍是工程难题。
  • 验证的可扩展性: 虽然循环是自动化的,但验证极大或有状态的工作流可能会变得计算成本高昂。
  • 对非 REST 接口的泛化: 当前设计面向 HTTP/JSON API;将其扩展到 GraphQL、gRPC 或自定义 SDK 是未来工作。
  • 安全性与偏见检查: 合成数据仍可能继承基础大模型的偏见;将显式安全过滤器集成到循环中是一个开放的研究方向。

总体而言,InfTool 证明了自我维持的多代理角色扮演系统能够弥补 LLM 在工具使用方面的数据缺口,为真正的自主 AI 助手铺平道路,这类助手可以在大规模部署且几乎不需要人工干预。

作者

  • Yuwen Li
  • Wei Zhang
  • Zelong Huang
  • Mason Yang
  • Jiajun Wu
  • Shawn Guo
  • Huahao Hu
  • Lingyi Sun
  • Jian Yang
  • Mingjie Tang
  • Byran Dai

论文信息

  • arXiv ID: 2512.23611v1
  • 分类: cs.CL
  • 发表时间: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »