[Paper] SELAUR: 불확실성 인식 보상을 통한 Self Evolving LLM Agent

발행: 3일 전 (2026년 2월 25일 오전 03:04 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.21158v1

Overview

논문 SELAUR: Self‑Evolving LLM Agent via Uncertainty‑aware Rewards는 자율 에이전트로 작동하는 대형 언어 모델(LLM)을 훈련하는 새로운 방식을 제안합니다. 모델 자체의 불확실성을 보상 신호에 결합함으로써, SELAUR는 에이전트가 보다 지능적으로 탐색하고 빠르게 학습하도록 하여, 인터랙티브 가정 시뮬레이션(ALFWorld) 및 웹 기반 쇼핑(WebShop)과 같은 복잡한 의사결정 과제에서 성공률을 높입니다.

주요 기여

불확실성 기반 보상 설계 – 엔트로피, 최소 신뢰도, 마진 메트릭을 하나의 토큰 수준 불확실성 점수로 결합하여 단계별 및 궤적 수준 보상에 직접 영향을 미칩니다.
실패 인식 보상 재구성 – 에피소드가 실패할 때 불확실성 신호를 주입하여 “실수”를 순수한 벌점이 아닌 유용한 학습 단서로 전환합니다.
밀도 높은, 신뢰도 정렬 감독 – 희소한 이진 보상보다 풍부한 피드백을 제공하여 긴 행동 시퀀스 전반에 걸친 크레딧 할당을 개선합니다.
두 가지 다양한 벤치마크에서의 실증적 향상 – SELAUR는 ALFWorld(구현된 작업)와 WebShop(웹 탐색)에서 강력한 인간 피드백 기반 강화학습(RLHF) 및 PPO 기준 모델을 지속적으로 능가합니다.
포괄적인 절제 실험 – 각 불확실성 구성 요소의 개별적 영향을 보여주고, 실패 인식 재구성의 견고성 이점을 입증합니다.

Methodology

Token‑level uncertainty estimation
- 생성된 각 토큰에 대해 세 가지 고전적인 불확실성 측정값을 계산합니다:
  - Entropy – 전체 확률 분포의 퍼짐 정도를 포착합니다.
  - Least confidence – 1 − 최대 확률로, 가장 의심스러운 예측을 강조합니다.
  - Margin – 상위 2개의 확률 차이로, 모델이 대안 선택과 얼마나 “가까운”지를 나타냅니다.
- 이러한 점수들을 정규화하고 합산하여 토큰당 하나의 불확실성 값을 만든 뒤, 행동 단계에 해당하는 토큰들에 대해 (예: 평균) 집계합니다.
Uncertainty‑aware reward shaping
- Step‑level reward: 기본 작업 보상(예: 성공 시 +1, 그 외 0)에 해당 단계의 불확실성의 역수를 곱해, 자신감 있게 올바른 행동을 할 때는 보상을 높이고, 과도하게 자신 있는 실수에는 벌점을 부여합니다.
- Trajectory‑level reward: 에피소드가 실패로 끝날 경우, 전체 궤적에 걸친 누적 불확실성을 사용해 보상을 재분배함으로써, 에이전트가 향후 시도에서 불확실성이 높은 영역을 다시 탐색하도록 장려합니다.
RL loop
- 에이전트를 Proximal Policy Optimization (PPO)으로 미세 조정하며, 정책 그래디언트를 불확실성‑인식 보상을 이용해 계산합니다.
- LLM의 파라미터는 불확실성‑보강 신호를 받는 가치 헤드와 함께 공동 업데이트되어 학습을 안정화합니다.
Self‑evolution
- 학습이 진행됨에 따라 모델은 익숙한 하위 작업에 대한 불확실성이 자연스럽게 감소하고, 남은 “알 수 없는” 환경 부분으로 탐색을 전환합니다—이것이 바로 “자기‑진화” 행동의 원리입니다.

결과 및 발견

벤치마크	베이스라인 (PPO) 성공률	SELAUR 성공률	상대적 향상
ALFWorld (가정용 작업)	42.3 %	55.8 %	+13.5 pp
WebShop (웹 탐색)	31.7 %	44.2 %	+12.5 pp

탐색 효율성: 불확실성 기반 탐색 덕분에 SELAUR는 학습 단계 기준으로 30‑40 % 더 빠르게 비슷한 성능에 도달합니다.
안정성: 무작위 시드 간 분산이 눈에 띄게 감소하여, 불확실성 신호가 급격한 정책 변동을 완화한다는 것을 보여줍니다.
소거 실험 인사이트: 세 가지 불확실성 요소 중 어느 하나라도 제거하면 성능이 저하됩니다 (엔트로피 ≈ ‑3 pp, 최소 신뢰도 ≈ ‑2 pp, 마진 ≈ ‑1 pp). 실패 인식 재구성이 가장 큰 단일 향상을 제공합니다 (+5 pp).

Practical Implications

Better autonomous assistants – Developers building chat‑oriented bots that must plan multi‑turn actions (e.g., scheduling, troubleshooting) can adopt SELAUR’s reward scheme to make the agents more self‑aware of their confidence, leading to fewer dead‑ends.
Reduced need for exhaustive human feedback – By extracting learning signals from the model’s own uncertainty, teams can cut down on costly RLHF data collection, especially for niche domains where labeled trajectories are scarce.
Improved safety in high‑stakes deployments – Uncertainty‑aware rewards naturally penalize over‑confident mistakes, which is valuable for agents operating in regulated environments (finance, healthcare) where blind confidence can be dangerous.
Plug‑and‑play integration – The uncertainty computation works on top of any decoder‑only LLM that provides token logits, meaning existing pipelines (OpenAI API, Hugging Face Transformers) can incorporate SELAUR with minimal code changes.

제한 사항 및 향후 연구

불확실성 계산의 확장성 – 토큰당 세 가지 메트릭을 계산하면 오버헤드가 발생하며, 저자들은 훈련 처리량이 약 15 % 감소한다고 언급합니다. 이를 최적화하는 것(예: 근사화 또는 배치‑별 캐싱)은 아직 해결되지 않은 과제입니다.
도메인 전이 – 실험은 시뮬레이션 환경에 초점을 맞추고 있으며, 이 접근법이 실제 웹 API나 잡음이 있는 관측을 가진 물리 로봇에 얼마나 일반화되는지는 아직 확인되지 않았습니다.
보상 설계는 여전히 작업‑특정 – 불확실성은 보편적이지만, 단계‑대‑궤적 수준 재구성의 정확한 가중치는 도메인마다 조정이 필요할 수 있습니다. 향후 연구에서는 가중치를 자동으로 메타‑학습하는 방안을 탐색할 수 있습니다.
장기 수평 신용 할당 – 수백 단계에 이르는 매우 긴 에피소드에서는 불확실성만으로는 지연 보상 문제를 완전히 해결하지 못할 수 있습니다; 계층적 강화학습과 결합하는 것이 유망할 수 있습니다.

전반적으로, SELAUR는 개발자들이 자체 신뢰 신호로부터 학습하는 LLM 기반 에이전트를 만들 수 있는 실용적인 길을 열어 주어, 보다 견고하고 효율적인 자율 시스템을 제공한다.

저자

Dengjia Zhang
Xiaoou Liu
Lu Cheng
Yaqing Wang
Kenton Murray
Hua Wei

논문 정보

arXiv ID: 2602.21158v1
분류: cs.LG, cs.CL
발행일: 2026년 2월 24일
PDF: PDF 다운로드

[Paper] SELAUR: 불확실성 인식 보상을 통한 Self Evolving LLM Agent

Overview

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] LLM 초보자 향상 on Dual-Use, In Silico 생물학 과제

[Paper] SPARTA: 텍스트와 테이블을 위한 트리 구조 멀티홉 QA의 확장 가능하고 원칙 기반 벤치마크

[Paper] 왜 Diffusion Language Models는 진정한 병렬 (Non-Autoregressive) 디코딩에 어려움을 겪는가?

[Paper] InnerQ: 하드웨어 인식 튜닝 프리 KV 캐시 양자화 for Large Language Models