[Paper] Tool‑RoCo：一个 Agent-as-Tool 自组织 Large Language Model 基准，用于 Multi‑robot Cooperation

发布: 2个月前 (2025年11月26日 GMT+8 23:45)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21510v1

概览

本文提出了 Tool‑RoCo，一个新基准，用于在长期、多机器人协作场景中检验大型语言模型（LLM）的能力。通过将其他代理视为工具并按需调用，作者展示了基于 LLM 的代理在没有预先编写的编排脚本的情况下，能够自组织、激活、停用并进行协同的程度。

主要贡献

Agent‑as‑Tool 范式 – 将代理间通信重新定义为工具调用，从而实现对协作的量化测量。
四种自主层级 – 定义了集中式协作、集中式自组织、去中心化协作和完全去中心化自组织，以比较“决策权”在多大程度上交由 LLM。
三项真实机器人任务 – SORT（物体分类）、PACK（箱子装填）和 CABINET（装配）提供了多样且长时程的挑战。
全面的评估指标 – 同时评估任务特定输出质量（格式与参数准确性）和协作质量（工具使用模式）。
开源发布 – 基准代码、任务定义和评估脚本已在 GitHub 上公开。

方法论

基准基础 – 作者在已有的多机器人协作套件 RoCo 基础上，加入了每个受 LLM 控制的代理可以调用的工具接口。
工具分类 – 定义了两大工具族：
- 协作工具 – 请求其他代理帮助的调用（例如 “让机器人 B 去取物品 X”）。
- 激活工具 – 用于开启或关闭代理的调用（例如 “激活机器人 C”）。
代理范式 –
- 集中式协作：由一个“主” LLM 决定每个机器人使用哪个工具。
- 集中式自组织：主 LLM 同时决定哪些机器人保持激活。
- 去中心化协作：每个机器人运行自己的 LLM，并基于本地视角选择工具。
- 自组织：任何机器人都可以通过调用激活工具为其他机器人启动协作链。
评估循环 – 对每个任务，代理反复执行 (a) 观察当前状态，(b) 从候选集合中选择工具，(c) 接收工具的响应，(d) 更新计划。该循环持续至任务成功或超时。
指标收集 – 系统记录工具调用频率、成功率以及最终机器人动作的质量（如正确的分类顺序、装填密度）。

结果与发现

工具使用稀疏 – 在所有测试的 LLM 中，协作工具的调用率仅为 7.09 %，表明代理很少向同伴请求帮助。
代理保持“始终开启” – 激活工具占调用的 96.42 %，显示出强烈倾向于让所有机器人保持激活，而不是动态停用。
不同范式的性能差距 – 集中式协作实现了最高的任务完成率，而完全去中心化自组织表现落后，揭示当前 LLM 在自主协同能力上仍有不足。
模型规模的影响 – 更大的 LLM（如 GPT‑4 系列）比小模型产生的协作调用略多，但整体比例仍然偏低。

实际意义

设计基于 LLM 的机器人群 – 工程师不应假设 LLM 代理会自然进行任务委派；可能需要显式的工具调用 API 或更高层的协同调度层。
资源管理 – 由于 LLM 倾向于让所有代理保持激活，实际部署时需实现外部限流或成本感知的激活策略，以避免不必要的功耗/计算开销。
基准驱动的开发 – Tool‑RoCo 提供了一个即用的测试平台，可用于评估新的提示策略、微调数据集或自定义工具调用处理器，然后再部署到实体机器人上。
混合编排 – 实际方案可以结合轻量级的中心调度器（负责激活）与去中心化的 LLM 代理（负责本地决策），利用基准四种范式中观察到的优势。

局限性与未来工作

合成环境 – 基准在仿真中运行；真实世界的噪声、延迟和硬件故障可能会以不同方式影响工具调用行为。
工具集简化 – 仅探索了两类工具族；更丰富的交互原语（如共享内存、协商协议）可能揭示更深层的协作模式。
LLM 提示约束 – 本研究使用了开箱即用的提示；自定义微调或基于工具使用反馈的强化学习可能显著改变观察到的低协作率。
可扩展性 – 实验仅限于三台机器人；扩展到更大规模的群体可能会暴露当前基准未捕获的新协同挑战。

Tool‑RoCo 为在多代理机器人领域系统、量化地研究 LLM 自主性打开了大门。通过将其他代理视为可调用的工具，它为开发者提供了一种具体手段来衡量——并最终提升——基于 LLM 的系统的协作智能。

作者

Ke Zhang
Xiaoning Zhao
Ce Zheng
Jiahong Ning
Dandan Zhu
Wenqi Zhang
Chen Sun
Toshiharu Sugawara

论文信息

arXiv ID: 2511.21510v1
分类: cs.MA, cs.AI
发表时间: 2025 年 11 月 26 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

开发稳健的世界模型推理对于大型语言模型（LLM）代理在复杂环境中进行规划和交互至关重要。虽然多轮交互……

[Paper] ThetaEvolve：测试时学习在开放问题上

近期在大型语言模型（LLMs）方面的进展已经促成了数学发现的突破，以 AlphaEvolve 为例，这是一个闭源系统，...

[Paper] 进步的代价：算法效率与 AI 推理成本下降

近年来，语言模型在高级基准上取得了巨大的进展，但这些进展在很大程度上只能通过使用更昂贵的模型来实现……

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

Inverse heat problems 指的是在已观测或已知的热扩散行为下，对材料热物理属性进行估计。Inverse heat problems 已经…