[Paper] TopoCurate: 툴 사용 에이전트 훈련을 위한 상호작용 토폴로지 모델링
Source: arXiv - 2603.01714v1
번역할 본문을 제공해 주시면 한국어로 번역해 드리겠습니다.
개요
이 논문은 TopoCurate를 소개한다. 이는 도구(예: 가상 손, API, 혹은 로봇 매니퓰레이터)를 사용할 수 있는 AI 에이전트를 훈련하는 새로운 방법이다. 단순히 롤아웃이 성공적으로 끝나는지 여부만 보는 대신, TopoCurate는 다수의 시도에서 행동과 관찰이 어떻게 상호작용하는지를 나타내는 위상 지도를 구축한다. 이를 통해 트레이너는 감독 학습 미세조정(SFT)과 강화 학습(RL) 모두에 가장 유익한 경험을 선택할 수 있다.
주요 기여
- Interaction‑aware topology: 작업의 모든 rollout을 통합 의미 그래프로 투영하여 동등한 행동‑관측 상태를 병합하고, 흩어진 궤적을 구조화된 매니폴드로 전환합니다.
- Dual‑selection curriculum:
- SFT selector는 오류 복구, 의미 효율성, 전략적 다양성을 보이는 궤적을 선호하여 공변량 이동과 모드 붕괴를 감소시킵니다.
- RL selector는 높은 “error‑branch” 비율과 다양한 전략을 가진 작업을 선호하여 희소 보상 환경에서 그래디언트 신호‑대‑노이즈 비율을 향상시킵니다.
- Empirical gains: 기존 최강 베이스라인과 비교했을 때 SFT 벤치마크에서 +4.2 %, RL 벤치마크에서 **+6.9 %**의 일관된 향상을 보여줍니다 (BFCLv3, Tau2).
- Open resources: 커뮤니티 활용을 위해 코드, 데이터 및 토폴로지 구축 파이프라인을 공개할 계획입니다.
방법론
- 각 도구 사용 작업(예: “pick‑up‑cup”, “open‑door”)에 대해 다중 시도 롤아웃을 수집합니다.
- 시맨틱 쿼시언트 투영:
- 사전 학습된 언어‑비전 모델을 사용해 각 (행동, 관찰) 쌍을 인코딩합니다.
- 의미적으로 동등한 쌍을 클러스터링합니다(예: “grasp‑handle” vs. “grab‑handle”).
- 클러스터를 그래프의 노드로 병합하고, 엣지는 시간적 전이를 나타냅니다.
- 결과 그래프는 에이전트의 상호작용이 성공 또는 실패 가지로 어떻게 분기되는지를 포착합니다.
- 이중 선택 메커니즘:
- SFT 선택기는 그래프를 순회하며 복구 루프(예: “failed‑grasp → adjust → retry”)와 효율적인 하위 경로(불필요한 단계 최소화)를 포함하는 경로를 찾습니다. 또한 그래프의 다양한 전략적 영역에서 샘플링함으로써 다양성을 보장합니다.
- RL 선택기는 실패 가지에 속하는 엣지 비율(오류‑가지 비율)과 전략 분포의 엔트로피를 계산합니다. 비율과 엔트로피가 높은 작업을 RL 업데이트에 선택하여 더 풍부한 그래디언트 신호를 확보합니다.
- 학습 루프: 선택된 SFT 트래젝터리를 사용해 정책을 미세 조정하고, 이후 RL 선택기가 고신호 작업을 제공하여 정책 그래디언트 업데이트를 수행합니다. 이 과정은 수렴할 때까지 반복됩니다.
결과 및 발견
| Setting | Baseline (SFT) | TopoCurate (SFT) | Baseline (RL) | TopoCurate (RL) |
|---|---|---|---|---|
| BFCLv3 | 71.3 % pass | 75.5 % (+4.2) | 0.42 % reward | 0.48 % (+6.9) |
| Tau2 | 68.7 % pass | 72.9 % (+4.2) | 0.38 % reward | 0.51 % (+6.9) |
- SFT에서 더 높은 성공률은 큐레이션된 궤적이 모델에 보다 견고한 복구 행동을 가르친다는 것을 나타냅니다.
- RL 보상의 향상은 오류‑분기‑풍부한 작업이 더 강력한 학습 신호를 제공하여 고전적인 희소‑보상 문제를 완화함을 보여줍니다.
- Ablation 연구는 토폴로지 투영과 이중‑선택 기준이 모두 이득에 가산적으로 기여한다는 것을 확인합니다.
실용적 함의
-
보다 신뢰할 수 있는 도구 사용 에이전트: 가상 비서, 게임 AI, 로봇 제어기를 개발하는 개발자는 단순히 “운에 맡기는” 것이 아니라 실수에서 우아하게 회복하는 정책을 얻을 수 있다.
-
데이터 낭비 감소: 중복되거나 사소한 롤아웃을 자동으로 필터링함으로써 학습 파이프라인이 샘플 효율성을 높이고 계산 비용을 절감한다.
-
RL을 위한 커리큘럼 설계: 오류‑분기 비율 메트릭은 도전적인 과제를 우선순위화하는 간단하고 해석 가능한 방법을 제공하며, 기존 RL 프레임워크(e.g., OpenAI Gym, RLlib)에 쉽게 적용할 수 있다.
-
도메인 간 적용 가능성: 토폴로지 구축은 행동과 관측을 임베딩할 수 있는 모든 모달리티(텍스트, 비전, 고유감각)에서 작동하므로, API를 호출하는 코드 생성 에이전트와 같은 다중 모달 도구 사용 시나리오에 적합하다.
제한 사항 및 향후 작업
- 그래프 구성의 확장성: 클러스터링 단계는 매우 긴 시간 범위나 방대한 데이터셋에서 비용이 많이 들 수 있으므로 근사 클러스터링이나 스트리밍 그래프 업데이트가 필요합니다.
- 임베딩 품질 의존성: 의미적 동등성은 사전 학습된 인코더에 의존하는데, 도메인 특화 어휘는 해당 인코더의 파인튜닝이 필요할 수 있습니다.
- 시뮬레이션 환경에 한정된 벤치마크: 실제 로봇 검증은 아직 진행 중이며, 저자들은 센서 노이즈가 토폴로지 안정성에 영향을 줄 수 있다고 언급합니다.
- 향후 방향에는 TopoCurate를 계층적 도구 사용(중첩된 하위 작업)으로 확장하고, 인간‑인‑루프 피드백을 통합하여 토폴로지를 정제하며, 토폴로지가 시간에 따라 진화하는 지속 학습 설정을 탐구하는 것이 포함됩니다.
저자
- Jinluan Yang
- Yuxin Liu
- Zhengyu Chen
- Chengcheng Han
- Yueqing Sun
- Qi Gu
- Hui Su
- Xunliang Cai
- Fei Wu
- Kun Kuang
논문 정보
- arXiv ID: 2603.01714v1
- Categories: cs.LG, cs.CL
- Published: 2026년 3월 2일
- PDF: PDF 다운로드