[Paper] TodoEvolve: 에이전트 계획 시스템 설계 학습

발행: 3일 전 (2026년 2월 8일 오후 03:37 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.07839v1

개요

이 논문은 TodoEvolve라는 메타‑플래닝 프레임워크를 소개합니다. 이 프레임워크는 자율 에이전트의 내부 플래닝 구조를 자동으로 설계, 튜닝 및 진화시킬 수 있습니다. 플래너 자체를 학습 가능한 구성 요소로 취급함으로써, TodoEvolve는 정적이고 수작업으로 만든 플래닝 모듈을 넘어 각 작업 및 기반 모델의 특성에 맞게 플래너 구조를 적응시켜, 다양한 장기 문제에서 성능을 크게 향상시킵니다.

Source: …

주요 기여

PlanFactory: 플래너의 “형태”(위상, 초기화, 적응, 내비게이션)를 추상화하고, 연구자들이 매우 다른 계획 패러다임 간에 구성 요소를 자유롭게 조합할 수 있게 하는 통합형 모듈식 코드베이스.
Impedance‑Guided Preference Optimization (IGPO): (1) 작업 성능, (2) 생성된 플래너의 안정성, (3) 토큰 효율성(즉, 낮은 API 비용)을 동시에 최적화하는 다목적 RL‑스타일 학습 목표.
Todo‑14B: IGPO로 학습된 140억 파라미터 규모의 언어 모델로, 필요 시 전체 계획 시스템(코드 + 하이퍼파라미터)을 출력한다.
실증 검증: 웹 탐색, 코드 생성, 구현 제어 등 다섯 가지 다양한 에이전트 벤치마크에서 TodoEvolve가 토큰 사용량을 줄이고 실행 시간은 비슷하면서도 수작업으로 설계된 플래너보다 우수한 성능을 보임을 실험을 통해 입증.
개방형 설계 공간: 이 접근법은 GPT‑3.5, Claude 등 다양한 백본 모델에서 작동하며, 전체 시스템을 재구성하지 않고도 새로운 계획 원시 기능으로 확장할 수 있음.

방법론

디자인 공간 정의 – PlanFactory는 가능한 모든 플래너 구성 요소(그래프 기반 탐색, 계층적 분해, 메모리 버퍼 등)를 열거하고 공통 API를 제공합니다.
학습 데이터 수집 – 저자들은 “플래닝 트레젝터리”라는 대규모 코퍼스를 생성합니다: 각 작업에 대해 여러 플래너 구성을 샘플링하고 실행한 뒤, 결과 성능, 안정성 지표, 토큰 사용량을 기록합니다.
Todo‑14B를 IGPO로 학습 – 모델은 작업 설명을 받고, 강화학습 루프를 통해 세 가지 보상의 가중합을 최대화하는 플래너 구성을 출력하도록 학습합니다:
- 성능: 작업 성공률 / 보상.
- 안정성: 실행 간 변동성이 낮고 충돌이나 막다른 상황을 피함.
- 토큰 효율성: 많은 LLM 호출이 필요한 플래너에 패널티 부여.
  IGPO의 “임피던스” 항은 후보 플래너가 이상적인 트레이드‑오프 표면에서 얼마나 벗어났는지를 측정하여, 최적화기가 균형 잡힌 솔루션을 찾도록 안내합니다.
동적 수정 – 추론 시점에 TodoEvolve는 생성된 플래너를 실시간으로 재평가하고, 관측된 임피던스가 상승하면 (예: 메모리 모듈 추가) 점진적인 수정을 제안할 수 있어, 에이전트가 실행되는 동안 플래너를 효과적으로 진화시킵니다.

결과 및 발견

벤치마크	기본 플래너 (수작업)	TodoEvolve (최고)	토큰 절감	런타임 Δ
WebNav (다중 페이지 탐색)	71.2 % 성공	78.9 %	~23 %	+5 %
CodeAssist (복잡한 코드 생성)	64.5 %	71.3 %	~19 %	+3 %
Embodied‑Room (시뮬레이션 로봇)	58.0 %	66.4 %	~27 %	+7 %
Multi‑step QA	73.1 %	80.2 %	~21 %	+4 %
Strategy Game (턴제)	69.8 %	77.5 %	~22 %	+6 %

모든 작업에서 TodoEvolve는 가장 강력한 수작업 설계 플래너보다 일관되게 5–9 퍼센트 포인트 앞섭니다.
IGPO‑훈련 모델은 플래너를 보다 안정적으로 만들어 줍니다 (무작위 시드에 따른 성공률 변동이 낮음).
토큰 사용량이 약 20 % 감소하여 LLM 기반 에이전트의 API 비용이 낮아집니다.
추가 런타임 오버헤드는 적당합니다 (한 자릿수 퍼센트), 따라서 이 방법을 실제 시스템에 적용하기에 실용적입니다.

Practical Implications

Plug‑and‑play planner generation – 개발자는 TodoEvolve를 서비스로 호출할 수 있습니다: 작업 설명을 제공하면 즉시 실행 가능한 계획 모듈을 받아 기존 에이전트 파이프라인에 삽입할 수 있습니다.
Cost‑effective scaling – 생성된 플래너가 토큰 효율적이기 때문에 클라우드 기반 에이전트(예: ChatGPT 플러그인, 자율 어시스턴트)는 동일한 예산 내에서 더 많은 요청을 처리할 수 있습니다.
Rapid prototyping – 검색 깊이, 메모리 크기, 계층적 분해 등을 수동으로 조정하는 대신, 팀은 TodoEvolve에 다시 프롬프트를 제공하기만 하면 되어 새로운 도메인(예: 금융, 의료)의 R&D 사이클을 크게 단축할 수 있습니다.
Cross‑model portability – 설계 공간이 기본 LLM을 추상화하므로 동일한 플래너를 GPT‑4, Claude 또는 오픈소스 대안과 재사용할 수 있어 공급자 간 마이그레이션이 용이합니다.
Self‑optimizing agents – 장기 배치(예: 자율 드론)에서 에이전트는 자체 임피던스를 모니터링하고 임무 중에 플래너 수정을 요청할 수 있어 인간 개입 없이도 더 회복력 있는 동작을 구현합니다.

제한 사항 및 향후 연구

Design‑space coverage – PlanFactory는 방대하지만 여전히 저자들의 기존 플래닝 패러다임에 대한 편향을 반영한다; 이색적이거나 도메인‑특정 구조는 누락될 수 있다.
Training cost – 고품질 트래젝터리 데이터셋을 구축하고 IGPO로 14B 모델을 학습시키는 데 상당한 연산 자원이 필요하며, 이는 소규모 연구실에 장벽이 될 수 있다.
Stability‑vs‑Exploration trade‑off – 임피던스 항이 새로운 플래너 구성을 과도하게 벌점화하여 급진적인 새로운 아키텍처 발견을 제한할 가능성이 있다.
Real‑world deployment – 모든 벤치마크가 시뮬레이션 환경에서 수행되었으며, 실제로 잡음이 많고 안전이 중요한 환경(예: 야외 로봇)에서의 테스트는 아직 남아 있는 과제이다.

향후 연구 방향으로는 커뮤니티가 기여하는 모듈을 통해 PlanFactory를 확장하고, 메타‑러닝을 적용해 데이터 생성 부담을 줄이며, 안전 제약을 IGPO 목표에 직접 통합하는 것이 포함된다.

저자

Jiaxi Liu
Yanzuo Jiang
Guibin Zhang
Zihan Zhang
Heng Chang
Zhenfei Yin
Qibing Ren
Junchi Yan

논문 정보

arXiv ID: 2602.07839v1
분류: cs.CL, cs.AI, cs.LG
출판일: 2026년 2월 8일
PDF: PDF 다운로드

[Paper] TodoEvolve: 에이전트 계획 시스템 설계 학습

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 차세대 CAPTCHA: 인지 격차를 활용한 확장 가능하고 다양한 GUI-에이전트 방어

[Paper] 이산 잠재 공간에서의 Next Concept Prediction이 더 강력한 Language Models를 이끈다

[Paper] SPD-Faith Bench: Chain-of-Thought에서 Multimodal Large Language Models의 충실도 진단 및 향상

[Paper] Olaf-World: 비디오 세계 모델링을 위한 잠재 행동 정렬