[Paper] 반성적 경험으로부터 Agency 내면화

발행: 2일 전 (2026년 3월 18일 AM 02:50 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.16843v1

개요

대형 언어 모델(LLM)은 점점 더 복잡한 환경과 상호작용하면서 계획하고 행동하며 실수로부터 회복해야 하는 자율 에이전트로 사용되고 있습니다(예: 코딩 어시스턴트, 게임 봇). 새로운 논문은 LEAFE를 소개합니다—에이전트가 상호작용 중에 받는 풍부한 피드백을 반성하고 이를 구체적인 회복 전략으로 전환하도록 하는 학습 프레임워크로, 단순히 최종 성공 신호만을 추구하는 것이 아닙니다.

Key Contributions

Feedback‑grounded agency: 에이전트가 환경 피드백(오류 메시지, 부분 점수, 힌트)을 내부화하고 이를 회복 행동을 개선하는 데 활용하는 방법을 제안합니다.
Reflective experience loop: 탐색 중에 에이전트가 피드백을 요약하고, 이전 의사결정 지점으로 역추적한 뒤, 요약에 따라 대안 행동을 재탐색합니다.
Supervised fine‑tuning from reflections: 수정된 궤적을 감독식 파인튜닝을 통해 LLM에 증류하여, 추론 시 추가 탐색 없이도 모델이 회복할 수 있게 합니다.
Empirical gains on long‑horizon tasks: 인터랙티브 코딩 벤치마크 및 기타 에이전시 과제 전반에 걸쳐, LEAFE는 Pass@1 및 Pass@k(최대 Pass@128)를 강력한 결과 기반 베이스라인인 GRPO 및 Early Experience 대비 최대 **14 %**까지 끌어올립니다.
Budget‑aware improvement: 고정된 상호작용 예산 하에서도 일관된 이점을 보여주며, 더 많은 단계를 수행하는 것보다 더 스마트한 회복이 효과적일 수 있음을 증명합니다.

방법론

탐색 단계 – 에이전트가 환경과 상호작용(예: 코드를 작성하고 실행)하고 풍부한 피드백 (오류 추적, 테스트 실패, 부분 점수)을 수집합니다.
반성 단계 – 가벼운 요약기가 이 피드백을 짧은 “경험 노트”로 압축하여 무엇이 잘못됐는지와 다음에 시도할 수 있는 것을 강조합니다.
역추적 및 재탐색 – 에이전트가 이전 결정 지점(예: 마지막 코드 라인)으로 되돌아가 경험 노트를 사용해 대안 행동을 생성합니다. 이를 통해 이전 실패를 성공적으로 해결하는 수정된 경로가 만들어집니다.
증류 – 모든 수정된 경로를 데이터셋으로 모읍니다. 그런 다음 기본 LLM을 표준 지도 학습(입력 = 원래 상태, 목표 = 수정된 행동)으로 파인튜닝하여 모델이 스스로 실수를 예측하고 수정하도록 학습합니다.
추론 – 파인튜닝된 모델은 이제 명시적인 역추적 루프 없이도 오류를 복구할 수 있어 동일한 상호작용 예산 내에 머무릅니다.

파이프라인은 의도적으로 단순합니다: 기존 LLM 기능(요약, 생성)과 표준 파인튜닝 파이프라인을 재사용하여 기존 에이전트 스택에 쉽게 연결할 수 있습니다.

결과 및 발견

벤치마크	측정항목	Baseline (GRPO)	LEAFE	Δ
Interactive coding (Pass@1)	성공률	42 %	48 %	+6 %
Interactive coding (Pass@128)	성공률	68 %	82 %	+14 %
Agentic navigation tasks	완료 점수	0.71	0.78	+0.07

Higher Pass@k: LEAFE는 k 값에 관계없이 결과‑중심 방법들을 지속적으로 능가하며, 솔루션의 다양성과 견고함이 향상됨을 보여줍니다.
Better sample efficiency: 동일한 상호작용 단계 수에서도 LEAFE는 더 높은 성공률을 달성해, 반사적 회복이 단순히 행동을 늘리는 것보다 예산 친화적임을 확인합니다.
Generalization: 동일한 프레임워크가 코드 생성(피드백이 컴파일/런타임 오류)과 내비게이션 스타일 작업(피드백이 거리 또는 충돌 신호) 모두에 적용되어, 폭넓은 적용 가능성을 시사합니다.

Practical Implications

Developer tools: Coding assistants can now suggest fixes on the fly, turning compile errors into actionable suggestions without needing a separate “debug” loop.
Autonomous bots: Game AI, robotics, or web‑automation agents can use error messages or partial rewards to self‑correct, reducing the need for hand‑crafted reward shaping.
Cost savings: Since LEAFE improves performance under a fixed interaction budget, services that charge per API call (e.g., OpenAI, Anthropic) can deliver higher quality results for the same cost.
Simplified pipelines: Teams can adopt LEAFE by adding a reflection‑summarization step and a periodic fine‑tuning job—no reinforcement‑learning infrastructure is required.
Safety & reliability: By explicitly training on failure cases, agents become less likely to repeat catastrophic mistakes, a step toward more trustworthy LLM‑driven automation.

제한 사항 및 향후 연구

Reflection quality depends on the summarizer: Poorly summarized feedback can misguide backtracking, limiting gains. → 반사 품질은 요약기에 의존한다: 요약이 부실한 피드백은 역추적을 잘못 이끌어 성과를 제한할 수 있다.
Backtrack depth is heuristic: Deciding how far to rewind is currently a rule‑based choice; learning an optimal backtrack policy could improve results. → 역추적 깊이는 휴리스틱이다: 현재는 규칙 기반 선택으로 되돌릴 범위를 결정하고 있으며, 최적의 역추적 정책을 학습하면 결과를 개선할 수 있다.
Scalability to massive state spaces: The current experiments focus on tasks with relatively compact histories; extending to long‑running simulations may require more efficient memory handling. → 대규모 상태 공간에 대한 확장성: 현재 실험은 비교적 짧은 히스토리를 가진 작업에 초점을 맞추고 있으며, 장기 시뮬레이션으로 확장하려면 보다 효율적인 메모리 관리가 필요할 수 있다.
Future directions include automated curriculum generation for reflective experiences, integrating learned backtrack policies, and testing LEAFE on real‑world robotics or multi‑agent coordination scenarios. → 향후 방향에는 반사 경험을 위한 자동 커리큘럼 생성, 학습된 역추적 정책 통합, 그리고 실제 로봇이나 다중 에이전트 협업 시나리오에서 LEAFE를 테스트하는 것이 포함된다.

저자

Rui Ge
Yichao Fu
Yuyang Qian
Junda Su
Yiming Zhao
Peng Zhao
Hao Zhang

논문 정보

arXiv ID: 2603.16843v1
분류: cs.AI
출판일: 2026년 3월 17일
PDF: PDF 다운로드

[Paper] 반성적 경험으로부터 Agency 내면화

개요

Key Contributions

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

[Paper] 확장 가능한 자동 레포지토리 수준 데이터셋을 향한 소프트웨어 취약점 탐지