[Paper] Tool‑RoCo: Agent‑as‑Tool **자기 조직화** Large Language Model Benchmark in Multi‑robot Cooperation

발행: (2025년 11월 27일 오전 12:45 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2511.21510v1

Overview

이 논문은 Tool‑RoCo라는 새로운 벤치마크를 소개한다. 이 벤치마크는 대형 언어 모델(LLM)을 장기적인 다중 로봇 협업 시나리오에 투입해 그 성능을 평가한다. 다른 에이전트를 도구로 간주하여 필요 시 호출함으로써, 저자들은 사전에 작성된 오케스트레이션 스크립트 없이도 LLM 기반 에이전트가 얼마나 잘 자체 조직하고, 활성·비활성화하며, 협업할 수 있는지를 드러낸다.

Key Contributions

  • Agent‑as‑Tool 패러다임 – 에이전트 간 통신을 도구 호출로 재구성하여 협업을 정량적으로 측정할 수 있게 함.
  • 네 가지 자율성 수준 – 중앙집중형 협업, 중앙집중형 자체 조직, 분산형 협업, 완전 분산형 자체 조직을 정의해 LLM에 남겨지는 “의사결정” 정도를 비교.
  • 세 가지 현실적인 로봇 과제 – SORT(물체 정렬), PACK(박스 포장), CABINET(조립)으로 구성된 다양한 장기 과제 제공.
  • 포괄적인 메트릭 – 작업별 출력 품질(형식·파라미터 정확도)과 협업 품질(도구 사용 패턴)을 모두 평가.
  • 오픈소스 공개 – 벤치마크 코드, 과제 정의, 평가 스크립트를 GitHub에 공개.

Methodology

  1. Benchmark foundation – 저자들은 기존 다중 로봇 협업 스위트인 RoCo를 기반으로, 각 LLM‑제어 에이전트가 호출할 수 있는 도구 인터페이스를 추가하였다.
  2. Tool taxonomy – 두 가지 주요 도구 군을 정의한다:
    • Cooperative tools – 다른 에이전트의 도움을 요청하는 호출(예: “로봇 B에게 아이템 X를 가져오라고 요청”).
    • Activation tools – 에이전트를 켜거나 끄는 호출(예: “로봇 C를 활성화”).
  3. Agent paradigms
    • Centralized cooperation: 하나의 “마스터” LLM이 각 로봇이 사용할 도구를 결정한다.
    • Centralized self‑organization: 마스터 LLM이 어떤 로봇을 활성 상태로 유지할지도 결정한다.
    • Decentralized cooperation: 각 로봇이 자체 LLM을 실행하고 로컬 관점에서 도구를 선택한다.
    • Self‑organization: 어느 로봇이든 다른 로봇을 위한 활성화 도구를 호출함으로써 협업 체인을 시작할 수 있다.
  4. Evaluation loop – 각 과제마다 에이전트는 반복적으로 (a) 현재 상태를 관찰하고, (b) 후보 도구 집합에서 도구를 선택하고, (c) 도구의 응답을 받고, (d) 계획을 업데이트한다. 이 루프는 과제가 성공하거나 타임아웃이 발생할 때까지 진행된다.
  5. Metrics collection – 시스템은 도구 호출 빈도, 성공률, 최종 로봇 행동의 품질(예: 올바른 정렬 순서, 포장 밀도) 등을 기록한다.

Results & Findings

  • Tool usage is sparse – 테스트된 모든 LLM에서 cooperative tools는 전체 호출의 **7.09 %**에 불과했으며, 이는 에이전트가 동료에게 도움을 요청하는 경우가 드물다는 것을 의미한다.
  • Agents stay “always on”Activation tools가 전체 호출의 **96.42 %**를 차지해, 로봇을 동적으로 비활성화하기보다 모두 활성 상태로 유지하는 경향이 강함을 보여준다.
  • Performance gap among paradigms – 중앙집중형 협업이 가장 높은 과제 완료율을 기록한 반면, 완전 분산형 자체 조직은 뒤처졌다. 이는 현재 LLM이 아직 강력한 자율 협업 능력이 부족함을 시사한다.
  • Model size matters – 규모가 큰 LLM(예: GPT‑4 계열)은 작은 모델보다 약간 더 많은 협업 호출을 생성했지만, 전체 비율은 여전히 낮은 수준에 머물렀다.

Practical Implications

  • Designing LLM‑driven robot fleets – 엔지니어는 LLM 에이전트가 자연스럽게 작업을 위임한다고 가정해서는 안 된다; 명시적인 도구 호출 API나 상위 수준의 협업 레이어가 필요할 수 있다.
  • Resource management – LLM이 모든 에이전트를 지속적으로 활성화하는 경향이 있기 때문에, 실제 배포 시 외부 스로틀링이나 비용 인식 활성화 정책을 구현해 불필요한 전력·연산 소모를 방지해야 한다.
  • Benchmark‑driven development – Tool‑RoCo는 새로운 프롬프트 전략, 파인‑튜닝 데이터셋, 맞춤형 도구 호출 핸들러 등을 물리적 로봇에 적용하기 전에 평가할 수 있는 즉시 사용 가능한 테스트베드를 제공한다.
  • Hybrid orchestration – 실용적인 접근법으로는 활성화 관리를 담당하는 가벼운 중앙 스케줄러와 로컬 결정을 담당하는 분산형 LLM 에이전트를 결합해, 벤치마크에서 관찰된 네 가지 패러다임의 장점을 동시에 활용할 수 있다.

Limitations & Future Work

  • Synthetic environment – 벤치마크는 시뮬레이션에서 실행되므로, 실제 환경의 노이즈, 지연, 하드웨어 오류 등이 도구 호출 행동에 다른 영향을 미칠 수 있다.
  • Tool set simplicity – 두 가지 도구 군만 탐색했으며, 공유 메모리나 협상 프로토콜과 같은 풍부한 상호작용 프리미티브가 추가되면 더 깊은 협업 패턴을 드러낼 수 있다.
  • LLM prompting constraints – 본 연구는 기존 프롬프트를 그대로 사용했으며, 맞춤형 파인‑튜닝이나 도구 사용 피드백을 통한 강화 학습이 협업 비율을 크게 바꿀 가능성이 있다.
  • Scalability – 실험은 세 대의 로봇에 한정되었으며, 더 큰 스웜으로 확장하면 현재 벤치마크가 포착하지 못하는 새로운 협업 과제가 나타날 수 있다.

Tool‑RoCo는 다중 에이전트 로봇 분야에서 LLM 자율성을 체계적이고 정량적으로 연구할 수 있는 길을 열어준다. 다른 에이전트를 호출 가능한 도구로 취급함으로써, 개발자는 LLM‑구동 시스템의 협업 지능을 측정하고 궁극적으로 개선할 구체적인 방법을 얻게 된다.

Authors

  • Ke Zhang
  • Xiaoning Zhao
  • Ce Zheng
  • Jiahong Ning
  • Dandan Zhu
  • Wenqi Zhang
  • Chen Sun
  • Toshiharu Sugawara

Paper Information

  • arXiv ID: 2511.21510v1
  • Categories: cs.MA, cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…