[Paper] Tool‑RoCo: Agent‑as‑Tool 자기 조직화 Large Language Model Benchmark in Multi‑robot Cooperation

발행: 5개월 전 (2025년 11월 27일 오전 12:45 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2511.21510v1

Overview

이 논문은 Tool‑RoCo라는 새로운 벤치마크를 소개한다. 이 벤치마크는 대형 언어 모델(LLM)을 장기적인 다중 로봇 협업 시나리오에 투입해 그 성능을 평가한다. 다른 에이전트를 도구로 간주하여 필요 시 호출함으로써, 저자들은 사전에 작성된 오케스트레이션 스크립트 없이도 LLM 기반 에이전트가 얼마나 잘 자체 조직하고, 활성·비활성화하며, 협업할 수 있는지를 드러낸다.

Key Contributions

Agent‑as‑Tool 패러다임 – 에이전트 간 통신을 도구 호출로 재구성하여 협업을 정량적으로 측정할 수 있게 함.
네 가지 자율성 수준 – 중앙집중형 협업, 중앙집중형 자체 조직, 분산형 협업, 완전 분산형 자체 조직을 정의해 LLM에 남겨지는 “의사결정” 정도를 비교.
세 가지 현실적인 로봇 과제 – SORT(물체 정렬), PACK(박스 포장), CABINET(조립)으로 구성된 다양한 장기 과제 제공.
포괄적인 메트릭 – 작업별 출력 품질(형식·파라미터 정확도)과 협업 품질(도구 사용 패턴)을 모두 평가.
오픈소스 공개 – 벤치마크 코드, 과제 정의, 평가 스크립트를 GitHub에 공개.

Methodology

Benchmark foundation – 저자들은 기존 다중 로봇 협업 스위트인 RoCo를 기반으로, 각 LLM‑제어 에이전트가 호출할 수 있는 도구 인터페이스를 추가하였다.
Tool taxonomy – 두 가지 주요 도구 군을 정의한다:
- Cooperative tools – 다른 에이전트의 도움을 요청하는 호출(예: “로봇 B에게 아이템 X를 가져오라고 요청”).
- Activation tools – 에이전트를 켜거나 끄는 호출(예: “로봇 C를 활성화”).
Agent paradigms –
- Centralized cooperation: 하나의 “마스터” LLM이 각 로봇이 사용할 도구를 결정한다.
- Centralized self‑organization: 마스터 LLM이 어떤 로봇을 활성 상태로 유지할지도 결정한다.
- Decentralized cooperation: 각 로봇이 자체 LLM을 실행하고 로컬 관점에서 도구를 선택한다.
- Self‑organization: 어느 로봇이든 다른 로봇을 위한 활성화 도구를 호출함으로써 협업 체인을 시작할 수 있다.
Evaluation loop – 각 과제마다 에이전트는 반복적으로 (a) 현재 상태를 관찰하고, (b) 후보 도구 집합에서 도구를 선택하고, (c) 도구의 응답을 받고, (d) 계획을 업데이트한다. 이 루프는 과제가 성공하거나 타임아웃이 발생할 때까지 진행된다.
Metrics collection – 시스템은 도구 호출 빈도, 성공률, 최종 로봇 행동의 품질(예: 올바른 정렬 순서, 포장 밀도) 등을 기록한다.

Results & Findings

Tool usage is sparse – 테스트된 모든 LLM에서 cooperative tools는 전체 호출의 **7.09 %**에 불과했으며, 이는 에이전트가 동료에게 도움을 요청하는 경우가 드물다는 것을 의미한다.
Agents stay “always on” – Activation tools가 전체 호출의 **96.42 %**를 차지해, 로봇을 동적으로 비활성화하기보다 모두 활성 상태로 유지하는 경향이 강함을 보여준다.
Performance gap among paradigms – 중앙집중형 협업이 가장 높은 과제 완료율을 기록한 반면, 완전 분산형 자체 조직은 뒤처졌다. 이는 현재 LLM이 아직 강력한 자율 협업 능력이 부족함을 시사한다.
Model size matters – 규모가 큰 LLM(예: GPT‑4 계열)은 작은 모델보다 약간 더 많은 협업 호출을 생성했지만, 전체 비율은 여전히 낮은 수준에 머물렀다.

Practical Implications

Designing LLM‑driven robot fleets – 엔지니어는 LLM 에이전트가 자연스럽게 작업을 위임한다고 가정해서는 안 된다; 명시적인 도구 호출 API나 상위 수준의 협업 레이어가 필요할 수 있다.
Resource management – LLM이 모든 에이전트를 지속적으로 활성화하는 경향이 있기 때문에, 실제 배포 시 외부 스로틀링이나 비용 인식 활성화 정책을 구현해 불필요한 전력·연산 소모를 방지해야 한다.
Benchmark‑driven development – Tool‑RoCo는 새로운 프롬프트 전략, 파인‑튜닝 데이터셋, 맞춤형 도구 호출 핸들러 등을 물리적 로봇에 적용하기 전에 평가할 수 있는 즉시 사용 가능한 테스트베드를 제공한다.
Hybrid orchestration – 실용적인 접근법으로는 활성화 관리를 담당하는 가벼운 중앙 스케줄러와 로컬 결정을 담당하는 분산형 LLM 에이전트를 결합해, 벤치마크에서 관찰된 네 가지 패러다임의 장점을 동시에 활용할 수 있다.

Limitations & Future Work

Synthetic environment – 벤치마크는 시뮬레이션에서 실행되므로, 실제 환경의 노이즈, 지연, 하드웨어 오류 등이 도구 호출 행동에 다른 영향을 미칠 수 있다.
Tool set simplicity – 두 가지 도구 군만 탐색했으며, 공유 메모리나 협상 프로토콜과 같은 풍부한 상호작용 프리미티브가 추가되면 더 깊은 협업 패턴을 드러낼 수 있다.
LLM prompting constraints – 본 연구는 기존 프롬프트를 그대로 사용했으며, 맞춤형 파인‑튜닝이나 도구 사용 피드백을 통한 강화 학습이 협업 비율을 크게 바꿀 가능성이 있다.
Scalability – 실험은 세 대의 로봇에 한정되었으며, 더 큰 스웜으로 확장하면 현재 벤치마크가 포착하지 못하는 새로운 협업 과제가 나타날 수 있다.

Tool‑RoCo는 다중 에이전트 로봇 분야에서 LLM 자율성을 체계적이고 정량적으로 연구할 수 있는 길을 열어준다. 다른 에이전트를 호출 가능한 도구로 취급함으로써, 개발자는 LLM‑구동 시스템의 협업 지능을 측정하고 궁극적으로 개선할 구체적인 방법을 얻게 된다.

Authors

Ke Zhang
Xiaoning Zhao
Ce Zheng
Jiahong Ning
Dandan Zhu
Wenqi Zhang
Chen Sun
Toshiharu Sugawara

Paper Information

arXiv ID: 2511.21510v1
Categories: cs.MA, cs.AI
Published: November 26, 2025
PDF: Download PDF

[Paper] Tool‑RoCo: Agent‑as‑Tool 자기 조직화 Large Language Model Benchmark in Multi‑robot Cooperation

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 행동으로 사고하기: Multi‑turn Interaction을 통한 LLM의 Efficient World Model Reasoning 구축

[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems

[Paper] 진보의 대가: Algorithmic Efficiency와 AI Inference 비용 감소

[Paper] Physics-Informed Neural Networks를 이용한 열물성 특성 추출