[Paper] 루프를 닫다: 멀티‑에이전트 역할극을 통한 무한 툴‑사용 데이터 합성
Source: arXiv - 2512.23611v1
개요
새로운 논문, “Close the Loop: Synthesizing Infinite Tool-Use Data via Multi‑Agent Role‑Playing,” 은 완전 자동 파이프라인—InfTool—을 제안한다. 이 파이프라인은 인간이 작성한 예시 없이도 대형 언어 모델(LLMs)이 외부 API를 호출하도록 학습시킬 수 있다. 세 개의 특화된 에이전트가 도구 호출 경로를 생성, 검증, 정제하도록 함으로써 시스템은 스스로를 반복적으로 개선하고, 원시 API 사양을 방대한 고품질 학습 데이터로 전환한다.
주요 기여
- InfTool 프레임워크: API 문서만으로 무제한 도구 사용 예시를 합성하는 폐쇄‑루프, 다중‑에이전트 시스템.
- 세 개의 협력 에이전트:
- 사용자 시뮬레이터 – 현실적인 사용자 요청을 생성.
- 도구‑호출 어시스턴트 – 어떤 API를 호출할지와 방법을 결정.
- MCP 서버 – 호출을 실행하고 결과를 확인하며 피드백을 제공.
- 그룹 상대 정책 최적화 (GRPO): 게이트형 보상을 사용해 어시스턴트를 훈련시키는 강화‑학습‑스타일 업데이트로, 스스로 능력 격차를 메우도록 장려.
- 인간 주석 제로: 모든 데이터가 생성·검증·훈련에 사용되며, 수동 라벨링이 전혀 없음.
- 최첨단 성능: 320억 파라미터 모델이 Berkeley Function‑Calling Leaderboard에서 정확도가 19.8 %에서 70.9 %로 급상승—훨씬 큰 상용 모델들을 능가.
Methodology
- Input – API specs: 시스템은 OpenAPI‑style 설명(엔드포인트, 파라미터, 반환 타입)으로 시작합니다. 예시는 필요하지 않습니다.
- Role‑playing loop:
- User Simulator는 API 중 하나가 필요할 법한 자연어 요청을 작성합니다(예: “내일 도쿄 날씨를 보여줘”).
- Tool‑Calling Assistant(LLM)는 요청을 해석하고 적절한 API를 선택한 뒤 정확한 함수 호출(JSON 인수, HTTP 메서드 등)을 생성합니다.
- MCP Server(경량 실행 샌드박스)는 모의 혹은 실제 서비스에 대해 호출을 실행하고 응답을 반환하며, 불일치나 오류를 표시합니다.
- Self‑verification & filtering: MCP 검사를 통과한 트래젝터리만 유지하고, 나머지는 부정 예제로 다시 피드백합니다.
- Training via GRPO: 어시스턴트의 정책은 그룹‑와이즈 상대 보상을 사용해 업데이트됩니다. 각 새로운 트래젝터리를 기준 집합과 비교하여, 새롭고 정확하며 다양성 있는 호출에 보상을 주고, 반복이나 실패에는 페널티를 부여합니다.
- Iterative improvement: 새로 훈련된 어시스턴트는 더 높은 품질의 요청을 생성하고, 이 루프가 반복됩니다—즉 “폐쇄 루프”가 됩니다.
전체 파이프라인은 일반 GPU 클러스터에서 자동으로 실행되며, 며칠 안에 수백만 개의 검증된 예제를 생성합니다.
결과 및 발견
| 지표 | 베이스라인 (32B) | InfTool 적용 후 | 상대적 향상 |
|---|---|---|---|
| BFCL 정확도 | 19.8 % | 70.9 % | +258 % |
| 데이터 효율성 (합성 vs. 인간) | – | 100 % 합성 | — |
| 비교 성능에 필요한 모델 크기 | 320 B (Claude‑Opus) | 32 B | — |
주요 관찰
- 다양성은 중요합니다: 에이전트가 생성한 다중 턴, 다중 API 시퀀스는 단일 모델 합성 파이프라인이 놓치는 엣지 케이스를 포괄합니다.
- 자기‑목표 학습: GRPO는 어시스턴트가 현재 어려워하는 API를 탐색하도록 유도하여 데이터셋을 자동으로 균형 맞춥니다.
- 인간 병목 현상 없음: 전체 개선은 자동 생성된 데이터에서 비롯되며, 비용이 많이 드는 주석 사이클을 없앱니다.
실용적 함의
- 툴이 활성화된 에이전트의 빠른 프로토타이핑: 개발자는 API 문서만 InfTool에 입력하면 해당 서비스를 신뢰성 있게 호출하는, 바로 미세조정할 수 있는 모델을 얻을 수 있다.
- 비용 효율적인 확장: 기업은 주석가를 고용하지 않고 내부 LLM에 툴 사용 기능을 초기화할 수 있어 데이터 라벨링 예산에서 수백만 달러를 절감한다.
- 지속적인 개선 파이프라인: 새로운 API가 추가될 때마다 동일한 루프가 자동으로 최신 학습 데이터를 생성해, 수동 회귀 테스트 없이도 어시스턴트를 최신 상태로 유지한다.
- 향상된 샌드박스 테스트: MCP 서버는 자동화된 통합 테스트 스위트처럼 작동하여 개발 주기 초기에 불일치를 포착한다.
- 오픈소스 잠재력: 라이브러리 형태로 공개된다면 InfTool은 LLM‑as‑a‑service 플랫폼(예: LangChain, LlamaIndex)에서 함수 호출 데이터셋을 자동 생성하는 표준 컴포넌트가 될 수 있다.
제한 사항 및 향후 과제
- 정확한 API 사양에 대한 의존성: 불완전하거나 모호한 문서는 루프가 감지하지 못하는 잘못된 트래젝터리를 초래할 수 있습니다.
- 모의 서비스 vs. 실제 서비스: MCP 서버는 종종 모의 응답을 사용합니다. 실시간 프로덕션 API(요청 제한, 인증)와의 격차를 메우는 것은 여전히 엔지니어링 과제입니다.
- 검증의 확장성: 루프가 자동화되어 있긴 하지만, 매우 크거나 상태를 유지하는 워크플로를 검증하는 데는 계산 비용이 많이 들 수 있습니다.
- 비‑REST 인터페이스에 대한 일반화: 현재 설계는 HTTP/JSON API를 목표로 하며, GraphQL, gRPC 또는 맞춤형 SDK로 확장하는 것은 향후 작업입니다.
- 안전성 및 편향 검증: 합성 데이터는 기본 LLM에서 편향을 물려받을 수 있으므로, 루프에 명시적인 안전 필터를 통합하는 것이 열린 연구 방향입니다.
전반적으로 InfTool은 자체 지속 가능한 다중 에이전트 역할 수행 시스템이 LLM의 도구 사용을 위한 데이터 격차를 메울 수 있음을 보여주며, 최소한의 인간 개입으로 대규모 배포가 가능한 진정한 자율 AI 어시스턴트로 나아가는 길을 열어줍니다.
저자
- Yuwen Li
- Wei Zhang
- Zelong Huang
- Mason Yang
- Jiajun Wu
- Shawn Guo
- Huahao Hu
- Lingyi Sun
- Jian Yang
- Mingjie Tang
- Byran Dai
논문 정보
- arXiv ID: 2512.23611v1
- 분류: cs.CL
- 출판일: 2025년 12월 29일
- PDF: PDF 다운로드