[Paper] 루프를 닫다: 멀티‑에이전트 역할극을 통한 무한 툴‑사용 데이터 합성

발행: 1주 전 (2025년 12월 30일 오전 02:12 GMT+9)

9 min read

원문: arXiv

Source: arXiv - 2512.23611v1

개요

새로운 논문, “Close the Loop: Synthesizing Infinite Tool-Use Data via Multi‑Agent Role‑Playing,” 은 완전 자동 파이프라인—InfTool—을 제안한다. 이 파이프라인은 인간이 작성한 예시 없이도 대형 언어 모델(LLMs)이 외부 API를 호출하도록 학습시킬 수 있다. 세 개의 특화된 에이전트가 도구 호출 경로를 생성, 검증, 정제하도록 함으로써 시스템은 스스로를 반복적으로 개선하고, 원시 API 사양을 방대한 고품질 학습 데이터로 전환한다.

주요 기여

InfTool 프레임워크: API 문서만으로 무제한 도구 사용 예시를 합성하는 폐쇄‑루프, 다중‑에이전트 시스템.
세 개의 협력 에이전트:
1. 사용자 시뮬레이터 – 현실적인 사용자 요청을 생성.
2. 도구‑호출 어시스턴트 – 어떤 API를 호출할지와 방법을 결정.
3. MCP 서버 – 호출을 실행하고 결과를 확인하며 피드백을 제공.
그룹 상대 정책 최적화 (GRPO): 게이트형 보상을 사용해 어시스턴트를 훈련시키는 강화‑학습‑스타일 업데이트로, 스스로 능력 격차를 메우도록 장려.
인간 주석 제로: 모든 데이터가 생성·검증·훈련에 사용되며, 수동 라벨링이 전혀 없음.
최첨단 성능: 320억 파라미터 모델이 Berkeley Function‑Calling Leaderboard에서 정확도가 19.8 %에서 70.9 %로 급상승—훨씬 큰 상용 모델들을 능가.

Methodology

Input – API specs: 시스템은 OpenAPI‑style 설명(엔드포인트, 파라미터, 반환 타입)으로 시작합니다. 예시는 필요하지 않습니다.
Role‑playing loop:
- User Simulator는 API 중 하나가 필요할 법한 자연어 요청을 작성합니다(예: “내일 도쿄 날씨를 보여줘”).
- Tool‑Calling Assistant(LLM)는 요청을 해석하고 적절한 API를 선택한 뒤 정확한 함수 호출(JSON 인수, HTTP 메서드 등)을 생성합니다.
- MCP Server(경량 실행 샌드박스)는 모의 혹은 실제 서비스에 대해 호출을 실행하고 응답을 반환하며, 불일치나 오류를 표시합니다.
Self‑verification & filtering: MCP 검사를 통과한 트래젝터리만 유지하고, 나머지는 부정 예제로 다시 피드백합니다.
Training via GRPO: 어시스턴트의 정책은 그룹‑와이즈 상대 보상을 사용해 업데이트됩니다. 각 새로운 트래젝터리를 기준 집합과 비교하여, 새롭고 정확하며 다양성 있는 호출에 보상을 주고, 반복이나 실패에는 페널티를 부여합니다.
Iterative improvement: 새로 훈련된 어시스턴트는 더 높은 품질의 요청을 생성하고, 이 루프가 반복됩니다—즉 “폐쇄 루프”가 됩니다.

전체 파이프라인은 일반 GPU 클러스터에서 자동으로 실행되며, 며칠 안에 수백만 개의 검증된 예제를 생성합니다.

결과 및 발견

지표	베이스라인 (32B)	InfTool 적용 후	상대적 향상
BFCL 정확도	19.8 %	70.9 %	+258 %
데이터 효율성 (합성 vs. 인간)	–	100 % 합성	—
비교 성능에 필요한 모델 크기	320 B (Claude‑Opus)	32 B	—

주요 관찰

다양성은 중요합니다: 에이전트가 생성한 다중 턴, 다중 API 시퀀스는 단일 모델 합성 파이프라인이 놓치는 엣지 케이스를 포괄합니다.
자기‑목표 학습: GRPO는 어시스턴트가 현재 어려워하는 API를 탐색하도록 유도하여 데이터셋을 자동으로 균형 맞춥니다.
인간 병목 현상 없음: 전체 개선은 자동 생성된 데이터에서 비롯되며, 비용이 많이 드는 주석 사이클을 없앱니다.

실용적 함의

툴이 활성화된 에이전트의 빠른 프로토타이핑: 개발자는 API 문서만 InfTool에 입력하면 해당 서비스를 신뢰성 있게 호출하는, 바로 미세조정할 수 있는 모델을 얻을 수 있다.
비용 효율적인 확장: 기업은 주석가를 고용하지 않고 내부 LLM에 툴 사용 기능을 초기화할 수 있어 데이터 라벨링 예산에서 수백만 달러를 절감한다.
지속적인 개선 파이프라인: 새로운 API가 추가될 때마다 동일한 루프가 자동으로 최신 학습 데이터를 생성해, 수동 회귀 테스트 없이도 어시스턴트를 최신 상태로 유지한다.
향상된 샌드박스 테스트: MCP 서버는 자동화된 통합 테스트 스위트처럼 작동하여 개발 주기 초기에 불일치를 포착한다.
오픈소스 잠재력: 라이브러리 형태로 공개된다면 InfTool은 LLM‑as‑a‑service 플랫폼(예: LangChain, LlamaIndex)에서 함수 호출 데이터셋을 자동 생성하는 표준 컴포넌트가 될 수 있다.

제한 사항 및 향후 과제

정확한 API 사양에 대한 의존성: 불완전하거나 모호한 문서는 루프가 감지하지 못하는 잘못된 트래젝터리를 초래할 수 있습니다.
모의 서비스 vs. 실제 서비스: MCP 서버는 종종 모의 응답을 사용합니다. 실시간 프로덕션 API(요청 제한, 인증)와의 격차를 메우는 것은 여전히 엔지니어링 과제입니다.
검증의 확장성: 루프가 자동화되어 있긴 하지만, 매우 크거나 상태를 유지하는 워크플로를 검증하는 데는 계산 비용이 많이 들 수 있습니다.
비‑REST 인터페이스에 대한 일반화: 현재 설계는 HTTP/JSON API를 목표로 하며, GraphQL, gRPC 또는 맞춤형 SDK로 확장하는 것은 향후 작업입니다.
안전성 및 편향 검증: 합성 데이터는 기본 LLM에서 편향을 물려받을 수 있으므로, 루프에 명시적인 안전 필터를 통합하는 것이 열린 연구 방향입니다.

전반적으로 InfTool은 자체 지속 가능한 다중 에이전트 역할 수행 시스템이 LLM의 도구 사용을 위한 데이터 격차를 메울 수 있음을 보여주며, 최소한의 인간 개입으로 대규모 배포가 가능한 진정한 자율 AI 어시스턴트로 나아가는 길을 열어줍니다.

저자

Yuwen Li
Wei Zhang
Zelong Huang
Mason Yang
Jiajun Wu
Shawn Guo
Huahao Hu
Lingyi Sun
Jian Yang
Mingjie Tang
Byran Dai

논문 정보

arXiv ID: 2512.23611v1
분류: cs.CL
출판일: 2025년 12월 29일
PDF: PDF 다운로드

[Paper] 루프를 닫다: 멀티‑에이전트 역할극을 통한 무한 툴‑사용 데이터 합성

개요

주요 기여

Methodology

결과 및 발견

주요 관찰

실용적 함의

제한 사항 및 향후 과제

저자

논문 정보

관련 글

[Paper] 반짝이는 것이 모두 금은 아니다: Reference-Free Counterfactual Financial Misinformation Detection을 위한 Benchmark

[Paper] FLEx: Few-shot 언어 설명을 활용한 언어 모델링

[Paper] LLMberjack: 다자 대화 생성을 위한 토론 트리의 가이드된 트리밍

[Paper] ContextFocus: 대규모 언어 모델의 맥락적 충실도를 위한 활성화 스티어링