[Paper] TodoEvolve: 에이전트 계획 시스템 설계 학습

발행: (2026년 2월 8일 오후 03:37 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.07839v1

개요

이 논문은 TodoEvolve라는 메타‑플래닝 프레임워크를 소개합니다. 이 프레임워크는 자율 에이전트의 내부 플래닝 구조를 자동으로 설계, 튜닝 및 진화시킬 수 있습니다. 플래너 자체를 학습 가능한 구성 요소로 취급함으로써, TodoEvolve는 정적이고 수작업으로 만든 플래닝 모듈을 넘어 각 작업 및 기반 모델의 특성에 맞게 플래너 구조를 적응시켜, 다양한 장기 문제에서 성능을 크게 향상시킵니다.

Source:

주요 기여

  • PlanFactory: 플래너의 “형태”(위상, 초기화, 적응, 내비게이션)를 추상화하고, 연구자들이 매우 다른 계획 패러다임 간에 구성 요소를 자유롭게 조합할 수 있게 하는 통합형 모듈식 코드베이스.
  • Impedance‑Guided Preference Optimization (IGPO): (1) 작업 성능, (2) 생성된 플래너의 안정성, (3) 토큰 효율성(즉, 낮은 API 비용)을 동시에 최적화하는 다목적 RL‑스타일 학습 목표.
  • Todo‑14B: IGPO로 학습된 140억 파라미터 규모의 언어 모델로, 필요 시 전체 계획 시스템(코드 + 하이퍼파라미터)을 출력한다.
  • 실증 검증: 웹 탐색, 코드 생성, 구현 제어 등 다섯 가지 다양한 에이전트 벤치마크에서 TodoEvolve가 토큰 사용량을 줄이고 실행 시간은 비슷하면서도 수작업으로 설계된 플래너보다 우수한 성능을 보임을 실험을 통해 입증.
  • 개방형 설계 공간: 이 접근법은 GPT‑3.5, Claude 등 다양한 백본 모델에서 작동하며, 전체 시스템을 재구성하지 않고도 새로운 계획 원시 기능으로 확장할 수 있음.

방법론

  1. 디자인 공간 정의 – PlanFactory는 가능한 모든 플래너 구성 요소(그래프 기반 탐색, 계층적 분해, 메모리 버퍼 등)를 열거하고 공통 API를 제공합니다.

  2. 학습 데이터 수집 – 저자들은 “플래닝 트레젝터리”라는 대규모 코퍼스를 생성합니다: 각 작업에 대해 여러 플래너 구성을 샘플링하고 실행한 뒤, 결과 성능, 안정성 지표, 토큰 사용량을 기록합니다.

  3. Todo‑14B를 IGPO로 학습 – 모델은 작업 설명을 받고, 강화학습 루프를 통해 세 가지 보상의 가중합을 최대화하는 플래너 구성을 출력하도록 학습합니다:

    • 성능: 작업 성공률 / 보상.
    • 안정성: 실행 간 변동성이 낮고 충돌이나 막다른 상황을 피함.
    • 토큰 효율성: 많은 LLM 호출이 필요한 플래너에 패널티 부여.
      IGPO의 “임피던스” 항은 후보 플래너가 이상적인 트레이드‑오프 표면에서 얼마나 벗어났는지를 측정하여, 최적화기가 균형 잡힌 솔루션을 찾도록 안내합니다.
  4. 동적 수정 – 추론 시점에 TodoEvolve는 생성된 플래너를 실시간으로 재평가하고, 관측된 임피던스가 상승하면 (예: 메모리 모듈 추가) 점진적인 수정을 제안할 수 있어, 에이전트가 실행되는 동안 플래너를 효과적으로 진화시킵니다.

결과 및 발견

벤치마크기본 플래너 (수작업)TodoEvolve (최고)토큰 절감런타임 Δ
WebNav (다중 페이지 탐색)71.2 % 성공78.9 %~23 %+5 %
CodeAssist (복잡한 코드 생성)64.5 %71.3 %~19 %+3 %
Embodied‑Room (시뮬레이션 로봇)58.0 %66.4 %~27 %+7 %
Multi‑step QA73.1 %80.2 %~21 %+4 %
Strategy Game (턴제)69.8 %77.5 %~22 %+6 %
  • 모든 작업에서 TodoEvolve는 가장 강력한 수작업 설계 플래너보다 일관되게 5–9 퍼센트 포인트 앞섭니다.
  • IGPO‑훈련 모델은 플래너를 보다 안정적으로 만들어 줍니다 (무작위 시드에 따른 성공률 변동이 낮음).
  • 토큰 사용량이 약 20 % 감소하여 LLM 기반 에이전트의 API 비용이 낮아집니다.
  • 추가 런타임 오버헤드는 적당합니다 (한 자릿수 퍼센트), 따라서 이 방법을 실제 시스템에 적용하기에 실용적입니다.

Practical Implications

  • Plug‑and‑play planner generation – 개발자는 TodoEvolve를 서비스로 호출할 수 있습니다: 작업 설명을 제공하면 즉시 실행 가능한 계획 모듈을 받아 기존 에이전트 파이프라인에 삽입할 수 있습니다.
  • Cost‑effective scaling – 생성된 플래너가 토큰 효율적이기 때문에 클라우드 기반 에이전트(예: ChatGPT 플러그인, 자율 어시스턴트)는 동일한 예산 내에서 더 많은 요청을 처리할 수 있습니다.
  • Rapid prototyping – 검색 깊이, 메모리 크기, 계층적 분해 등을 수동으로 조정하는 대신, 팀은 TodoEvolve에 다시 프롬프트를 제공하기만 하면 되어 새로운 도메인(예: 금융, 의료)의 R&D 사이클을 크게 단축할 수 있습니다.
  • Cross‑model portability – 설계 공간이 기본 LLM을 추상화하므로 동일한 플래너를 GPT‑4, Claude 또는 오픈소스 대안과 재사용할 수 있어 공급자 간 마이그레이션이 용이합니다.
  • Self‑optimizing agents – 장기 배치(예: 자율 드론)에서 에이전트는 자체 임피던스를 모니터링하고 임무 중에 플래너 수정을 요청할 수 있어 인간 개입 없이도 더 회복력 있는 동작을 구현합니다.

제한 사항 및 향후 연구

  • Design‑space coverage – PlanFactory는 방대하지만 여전히 저자들의 기존 플래닝 패러다임에 대한 편향을 반영한다; 이색적이거나 도메인‑특정 구조는 누락될 수 있다.
  • Training cost – 고품질 트래젝터리 데이터셋을 구축하고 IGPO로 14B 모델을 학습시키는 데 상당한 연산 자원이 필요하며, 이는 소규모 연구실에 장벽이 될 수 있다.
  • Stability‑vs‑Exploration trade‑off – 임피던스 항이 새로운 플래너 구성을 과도하게 벌점화하여 급진적인 새로운 아키텍처 발견을 제한할 가능성이 있다.
  • Real‑world deployment – 모든 벤치마크가 시뮬레이션 환경에서 수행되었으며, 실제로 잡음이 많고 안전이 중요한 환경(예: 야외 로봇)에서의 테스트는 아직 남아 있는 과제이다.

향후 연구 방향으로는 커뮤니티가 기여하는 모듈을 통해 PlanFactory를 확장하고, 메타‑러닝을 적용해 데이터 생성 부담을 줄이며, 안전 제약을 IGPO 목표에 직접 통합하는 것이 포함된다.

저자

  • Jiaxi Liu
  • Yanzuo Jiang
  • Guibin Zhang
  • Zihan Zhang
  • Heng Chang
  • Zhenfei Yin
  • Qibing Ren
  • Junchi Yan

논문 정보

  • arXiv ID: 2602.07839v1
  • 분류: cs.CL, cs.AI, cs.LG
  • 출판일: 2026년 2월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »