[Paper] RLAnything: 완전 동적 RL 시스템에서 환경, 정책 및 보상 모델을 구축

발행: (2026년 2월 3일 오전 03:59 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2602.02488v1

개요

논문은 RLAnything이라는 새로운 강화학습(RL) 프레임워크를 소개한다. 이 프레임워크는 환경, 정책, 보상 모델을 공동 진화 구성 요소로 취급한다. 이들 사이에 루프를 닫음으로써 시스템은 학습 신호를 지속적으로 증폭하고, 손으로 만든 보상 함수나 정적인 시뮬레이터 없이도 어떤 대형 언어 모델(LLM)이나 에이전시 시나리오에도 적응할 수 있다. 저자들은 이 동적인 삼중 구조가 여러 벤치마크 작업에서 상당한 성능 향상을 가져온다는 것을 보여주며, 보다 자율적이고 스스로 개선되는 AI 에이전트를 위한 실용적인 경로를 제시한다.

주요 기여

  • Closed‑loop co‑optimization of environment, policy, and reward model, allowing each to improve the others during training.
  • Integrated feedback that combines step‑wise (per‑action) signals with high‑level outcome signals for richer policy supervision.
  • Consistency‑driven reward learning: the reward model is trained to stay consistent with both the policy’s behavior and critic feedback, reducing reliance on costly human annotations.
  • Automatic environment adaptation: the simulated environment is dynamically tuned using critic feedback, enabling the system to learn from its own experience rather than a fixed simulator.
  • Theoretical grounding: the authors provide convergence guarantees and show how the dynamic components jointly reduce variance in the RL objective.
  • Empirical gains across diverse tasks:
    • OSWorld (visual‑language reasoning)에서 Qwen3‑VL‑8B‑Thinking에 대해 +9.1 % 향상.
    • AlfWorld에서 +18.7 %, LiveBench에서 Qwen2.5‑7B‑Instruct에 대해 +11.9 % 향상.
  • Open‑source release of the codebase (https://github.com/Gen-Verse/Open-AgentRL) to foster reproducibility and community extensions.

방법론

  1. 정책 훈련 – 정책(LLM 또는 에이전트)은 두 가지 피드백 흐름을 받는다:

    • 단계별 신호(예: 행동 수준 보상, 중간 상태에 대한 주의).
    • 결과 신호(최종 작업 성공/실패).
      이들은 하나의 손실로 결합되어 정책이 표준 RL 알고리즘(예: PPO)을 통해 최적화한다.
  2. 보상 모델(RM) 학습 – 정적인 인간 라벨 보상 대신, RM은 정책과 공동으로 학습된다. RM은 일관성 피드백을 받는다: 정책과 학습된 비평가가 더 좋다고 판단한 궤적에 더 높은 점수를, 그렇지 않은 경우 낮은 점수를 부여해야 한다. 이는 더 나은 RM이 더 나은 정책을 만들고, 그 정책이 다시 RM에 더 깨끗한 신호를 제공하는 자기 강화 루프를 만든다.

  3. 동적 환경 적응 – 환경 시뮬레이터는 고정되어 있지 않다. 비평가가 현재 환경의 난이도를 평가하고 조정을 제안한다(예: 작업 파라미터, 노이즈 수준 변경). 환경 파라미터는 학습 신호가 유의미하도록 업데이트된다—너무 쉬워서 학습이 없거나, 너무 어려워서 수렴이 안 되는 상황을 피한다.

  4. 폐쇄 루프 최적화 – 세 구성 요소가 반복적으로 업데이트된다:

    • 정책 → 궤적을 생성한다.
    • RM → 궤적에 점수를 매겨 보상 신호를 제공한다.
    • 비평가 → 정책과 환경을 평가하고, 환경을 조정하고 RM을 정제하도록 피드백을 제공한다.
      루프는 성능이 정체될 때까지 계속된다.
  5. 이론적 분석 – 저자들은 완화된 가정 하에, 공동 최적화가 정책 성능, 보상 일관성, 환경 관련성을 균형 있게 조절하는 공동 목표의 정지점으로 수렴함을 증명한다.

결과 및 발견

모델 / 작업베이스라인RLAnything (+Δ)
Qwen3‑VL‑8B‑Thinking on OSWorld71.2 %80.3 % (+9.1 %)
Qwen2.5‑7B‑Instruct on AlfWorld62.5 %81.2 % (+18.7 %)
Qwen2.5‑7B‑Instruct on LiveBench68.4 %80.3 % (+11.9 %)
  • 보상 모델 vs. 인간 라벨 – 학습된 RM은 인간 주석에서 파생된 보상 신호보다 일관되게 우수했으며, 일관성 기반 접근법이 비용이 많이 드는 라벨링 파이프라인을 대체할 수 있음을 나타냅니다.
  • 소거 연구 – 세 가지 동적 구성 요소(정책 전용 RL, 정적 RM, 고정 환경) 중 하나라도 제거하면 최종 성능이 눈에 띄게 감소(5‑12 %)하여 폐쇄 루프 설계의 시너지 효과를 확인했습니다.
  • 안정성 – 환경 적응이 활성화된 경우 훈련 곡선이 더 부드러운 수렴과 낮은 분산을 보였으며, 이는 샘플 효율성이 향상됨을 시사합니다.

Practical Implications

  • Reduced Annotation Costs주석 비용 감소 – 개발자는 대규모 인간 평가 보상 데이터셋을 구축하지 않고도 작업‑특화 에이전트를 훈련시킬 수 있으며, 시스템이 스스로 신뢰할 수 있는 보상 신호를 생성합니다.
  • Rapid Prototyping of New Tasks새 작업의 빠른 프로토타이핑 – 새로운 환경 설명을 RLAnything에 연결하면 프레임워크가 자동으로 난이도와 보상 형태를 조정하여 기능적인 에이전트를 얻는 데 필요한 시간을 단축합니다.
  • Scalable Agentic Systems확장 가능한 에이전트 시스템 – LLM 기반 에이전트(예: 자율 어시스턴트, 코드 생성 봇, 게임 AI 등)에 의존하는 제품에 대해 RLAnything는 사용 데이터가 흐르는 동안 정책을 지속적으로 개선할 수 있는 플러그‑앤‑플레이 방식을 제공합니다.
  • Better Generalization향상된 일반화 – 동적 환경 적응은 정책이 더 넓은 시나리오 분포를 다루도록 강제하여 실제 배포 시 보다 견고한 행동으로 이어질 수 있습니다.
  • Open‑source Toolkit오픈소스 툴킷 – 공개된 코드는 인기 있는 LLM 백본(Qwen, LLaMA 등)에 대한 즉시 사용 가능한 어댑터를 포함하고 있어 엔지니어가 자신만의 도메인에서 실험하기 쉽습니다.

제한 사항 및 향후 작업

  • 계산 오버헤드 – 세 개의 상호 작용 모듈을 공동으로 학습하면 표준 RL 파이프라인에 비해 GPU 메모리가 더 많이 필요하고 실제 시간도 더 오래 걸립니다.
  • 환경 설계 의존성 – 환경이 자동으로 적응하긴 하지만 초기 파라메트릭 시뮬레이터가 여전히 필요합니다; 합리적인 시뮬레이터가 없는 작업은 추가적인 엔지니어링이 필요할 수 있습니다.
  • 이론적 가정 – 수렴 보장은 부드러움과 유계성 가정에 기반하는데, 이는 매우 큰 LLM이나 고도로 확률적인 환경에서는 성립하지 않을 수 있습니다.
  • 미래 방향은 저자들이 제시한 바와 같이 다음을 포함합니다:
    • 여러 정책이 공동 진화하는 다중 에이전트 환경으로 RLAnything을 확장하기.
    • 작업 전반에 걸친 환경 적응을 가속화하기 위한 메타 학습 기법 탐색.
    • 에지 케이스 실패가 발생할 때 보상 일관성을 더욱 정제하기 위해 인간이 참여하는 피드백을 통합하기.

RLAnything은 완전 동적인 RL 루프가 전통적으로 정적인 강화 학습 구성 요소들을 적응 가능하고 스스로 개선되는 모듈로 전환할 수 있음을 보여주며, 개발자들이 더 똑똑하고 손으로 튜닝할 필요가 적은 AI 에이전트를 구축할 수 있는 실용적인 경로를 열어줍니다.

저자

  • Yinjie Wang
  • Tianbao Xie
  • Ke Shen
  • Mengdi Wang
  • Ling Yang

논문 정보

  • arXiv ID: 2602.02488v1
  • Categories: cs.LG, cs.CL
  • Published: February 2, 2026
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »