[Paper] 재귀적 에이전트 최적화

발행: (2026년 5월 8일 AM 02:49 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2605.06639v1

개요

논문 Recursive Agent Optimization (RAO) 은 AI 시스템이 자신의 복제본을 호출하여 하위 문제를 해결하도록 하는 새로운 강화학습(RL) 프레임워크를 제안합니다. 이는 프로그래머가 재귀 함수를 작성하는 방식과 유사합니다. 에이전트가 언제 작업을 분할하고 어떻게 부모 에이전트와 자식 에이전트 사이에 정보를 전달할지를 학습하도록 함으로써, RAO는 모델이 자체 컨텍스트 윈도우를 초과하는 입력을 처리하고, 학습 중에 본 것보다 훨씬 더 복잡한 문제들을 다룰 수 있게 합니다.

주요 기여

  • Recursive Agent Architecture – 추론 중에 동일한 하위 에이전트를 동적으로 생성할 수 있는 에이전트를 도입하여 자연스러운 분할‑정복 전략을 가능하게 함.
  • RAO Training Algorithm – 에이전트에게 위임 (언제 자식을 생성할지)과 통신 (어떤 상태를 전달할지) 모두를 학습시키는 강화학습 목표.
  • Context‑Window Scaling – 재귀적 추론을 통해 모델의 고정 컨텍스트 길이를 초과하는 시퀀스를 아키텍처 변경 없이 처리할 수 있음을 입증.
  • Training Efficiency Gains – 재귀적 에이전트가 단일(모놀리식) 베이스라인보다 더 빠르게 수렴하고 환경 단계 수가 적게 필요함을 보여줌.
  • Generalization to Harder Tasks – 비교적 작은 규모의 문제에 대해 학습된 에이전트가 재귀를 활성화하면 훨씬 크거나 깊은 인스턴스를 해결할 수 있다는 실증적 증거.
  • Wall‑Clock Speed‑up – 여러 컴퓨트 노드에 하위 작업을 병렬화함으로써, 에이전트 생성이라는 추가 오버헤드가 있더라도 전체 해결 시간이 감소함.

방법론

  1. Base Agent – 고정 크기 컨텍스트에서 작동하는 표준 트랜스포머‑스타일 정책/가치 네트워크로 시작합니다.
  2. Recursive Call Mechanism – 롤아웃 중에 에이전트는 delegation score를 평가합니다. 점수가 학습된 임계값을 초과하면 sub‑goal을 가진 자식 에이전트를 생성합니다 (예: 입력의 일부 혹은 하위 문제 정의).
  3. State Transfer – 부모는 현재 상태의 간결한 표현(Attention 키/값, 은닉 벡터, 또는 학습된 요약)을 패키징하여 자식에게 전달합니다. 자식은 자체 추론 루프를 실행하며, 필요에 따라 추가 자손을 생성할 수 있습니다.
  4. Reward Signal – 환경은 전체 작업에 대한 스칼라 보상을 반환합니다. RAO는 정책‑그라디언트 방법을 사용해 이 보상을 전체 재귀 트리를 통해 역전파하며, delegation 결정과 하위 작업 해결 모두에 크레딧을 할당합니다.
  5. Curriculum & Curriculum‑Free Training – 저자들은 재귀 메커니즘이 이미 존재하는 상태에서 비교적 작은 문제 크기로 훈련하여, 정책이 더 깊은 재귀가 더 큰 미지의 인스턴스에서 더 높은 보상을 가져온다는 것을 스스로 발견하도록 합니다.

이 모든 과정은 표준 RL 루프(예: PPO 또는 A2C) 안에 포함되지만, 핵심적인 새로움은 문제를 언제 그리고 어떻게 분할할지를 결정하는 learned recursion policy입니다.

Results & Findings

TaskBaseline (single agent)RAO (recursive)Context Length (tokens)Speedup
Long‑sequence language modeling (10k tokens)Fails (context overflow)Solves with 3‑level recursion2k (model) → 10k (effective)~1.8×
Maze navigation (grid size 20×20)62 % success after 1M steps94 % success after 400k steps2.5×
Symbolic algebra (expression depth 8)48 % accuracy87 % accuracy
Multi‑turn dialog planning (10 turns)71 % success85 % success1.3× (parallelized)
  • Training Efficiency: 재귀 에이전트는 목표 성능에 도달하는 데 2–3배 더 빠르게 (환경 상호작용이 적게) 도달했습니다.
  • Generalization: 깊이‑4 문제에 대해 학습된 에이전트는 추가 파인튜닝 없이도 깊이‑8 문제를 성공적으로 해결했습니다. 이는 학습된 재귀 정책 덕분입니다.
  • Scalability: 하위 작업을 별도의 컴퓨트 노드에 위임함으로써 전체 전방 패스 수는 증가했지만, 실제 벽시계 시간은 감소했습니다.

Practical Implications

  • Beyond Fixed Context Windows: 대형 언어 모델(LLM)은 이제 아키텍처를 재설계하지 않고도 초장문 문서(법률 계약서, 코드베이스)를 사용할 수 있습니다—모델을 재귀 추론 래퍼에 감싸기만 하면 됩니다.
  • Modular AI Pipelines: 개발자는 self‑delegating 서비스(단일 마이크로서비스가 하위 작업을 위해 자식 워커를 생성하는) 를 구축할 수 있습니다(예: 청크 요약, 계층적 계획).
  • Resource‑Efficient Scaling: 수십억 파라미터의 거대 모델을 확장하는 대신, 팀은 소규모 모델을 유지하고 병렬 재귀를 통해 유사한 성능을 달성하여 GPU 메모리와 비용을 절감할 수 있습니다.
  • Robustness to Task Difficulty: 소규모 벤치마크(예: 짧은 코드 생성)로 훈련된 시스템은 배포 후 자동으로 더 크고 복잡한 입력을 처리할 수 있어 지속적인 재학습 필요성을 줄입니다.
  • Simplified API Design: 개발자 입장에서는 재귀 로직을 단일 “solve” 호출로 노출할 수 있으며, 하부 프레임워크가 워커 생성, 상태 전달, 결과 집계를 처리합니다.

제한 사항 및 향후 연구

  • 상태 전송 오버헤드: 부모의 숨겨진 상태를 포장하고 풀어내는 과정이 지연을 초래합니다; 이 표현을 최적화하는 것은 아직 해결되지 않은 문제입니다.
  • 크레딧 할당 복잡성: 긴 재귀 트리는 특히 여러 단계의 위임이 포함될 때 그래디언트 추정이 노이즈가 많아질 수 있습니다.
  • 하드웨어 협조: 효과적인 병렬 가속은 계산 노드 간 저지연 통신을 전제로 합니다; 이기종 또는 엣지 디바이스에서는 병목이 될 수 있습니다.
  • 작업 적합성: 모든 문제를 깔끔하게 분해할 수 있는 것은 아니며, 자연스러운 계층 구조가 없는 작업은 제한된 이점을 가질 수 있습니다.
  • 향후 방향: 저자들은 적응 깊이 제어 (에이전트가 실시간으로 최적 재귀 깊이를 결정하도록) 탐색, 메모리 강화 상태 전달 통합, 그리고 자기 재귀를 넘어선 다중 에이전트 협업에 RAO 적용(예: 이기종 전문 에이전트) 등을 제안합니다.

저자

  • Apurva Gandhi
  • Satyaki Chakraborty
  • Xiangjun Wang
  • Aviral Kumar
  • Graham Neubig

논문 정보

  • arXiv ID: 2605.06639v1
  • 카테고리: cs.LG, cs.AI, cs.CL, cs.MA
  • 출판일: 2026년 5월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »