[Paper] Autoregressive 모델에서 출현하는 시간 추상화가 Hierarchical Reinforcement Learning을 가능하게 한다

발행: (2025년 12월 24일 오전 03:51 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.20605v1

번역할 텍스트를 제공해 주시면, 요청하신 대로 마크다운 형식과 코드 블록, URL은 그대로 유지하면서 한국어로 번역해 드리겠습니다.

개요

이 논문은 대규모 자기회귀 모델(예: GPT‑스타일 언어 모델)이 시간 추상화—많은 저수준 단계에 걸친 고수준 “매크로‑액션”—를 학습할 수 있음을 보여줍니다. 이를 위해 모델의 내부 활성화를 직접 조작하는 보조적인 비인과적(non‑causal) 컨트롤러를 훈련합니다. 토큰 출력에만 강화학습을 적용하는 것이 아니라 네트워크 내부에서 강화학습을 수행함으로써, 저밀도 보상이 있는 작업에서 훨씬 더 효율적인 탐색을 달성하고, 기반 모델 위에 구축된 계층적 강화학습(Hierarchical RL)으로 가는 길을 열어줍니다.

주요 기여

  • Internal‑RL 프레임워크: “내부 강화 학습”을 소개하며, 고차 컨트롤러가 사전 학습된 자기회귀 모델의 잔차 스트림 활성화에 직접 영향을 미칩니다.
  • 시간 추상화 발견: 컨트롤러가 저수준 행동의 긴 시퀀스를 압축하여 학습된 종료 조건을 가진 컴팩트한 잠재 컨트롤러(하위 정책)로 변환함을 보여줍니다.
  • 계층적 구성: 이러한 잠재 컨트롤러들을 연쇄함으로써 새로운 작업에서 효율적인 탐색과 빠른 적응을 가능하게 함을 보여줍니다.
  • 실증적 검증: 그리드 월드 네비게이션 및 MuJoCo 로코모션 벤치마크에 대한 실험을 제공하며, 계층 구조를 나타내고 표준 토큰별 RL은 실패하지만 내부 RL은 성공합니다.
  • 확장 가능한 설계: 이 접근법은 기존 대규모 사전 학습 모델과 함께 작동하며, 약간의 추가 컨트롤러 네트워크와 RL 미세 조정만 필요합니다.

방법론

  1. 기본 모델: 다음 토큰 예측(예: 언어 모델)으로 사전 학습된 대형 자동 회귀 트랜스포머를 시작점으로 사용합니다. 이 모델의 은닉 상태인 “잔차 스트림(residual stream)”이 조작 대상이 됩니다.
  2. 고차 제어기: 비인과적 시퀀스 모델(예: 양방향 트랜스포머)은 현재 상태를 입력받아 각 시점마다 제어 벡터를 출력합니다. 이 벡터는 기본 모델의 잔차 스트림에 더해져 내부 동역학을 효과적으로 조정합니다.
  3. 잠재 행동: 제어기의 출력은 잠재 행동(또는 하위 정책)으로 해석됩니다. 각 잠재 행동은 학습된 종료 신호가 발생할 때까지 가변적인 수의 기본 모델 스텝을 실행합니다.
  4. 내부 RL 루프: 강화학습 알고리즘(예: PPO 또는 SAC)은 잠재 행동 위에서 작동하며, 환경으로부터의 보상은 잠재 행동이 종료된 후에만 받습니다. 그래디언트는 제어기를 거쳐 기본 모델까지 역전파되어 전체 시스템을 엔드‑투‑엔드로 미세 조정할 수 있게 합니다.
  5. 학습 절차:
    • 대규모 코퍼스에서 기본 모델을 사전 학습합니다(표준 방식).
    • 기본 모델을 고정하거나 가볍게 미세 조정하면서, 목표 작업에 대해 제어기를 강화학습으로 학습합니다.
    • 필요에 따라 이후에 기본 모델을 풀어주어 공동 최적화를 진행할 수 있습니다.

핵심 통찰은 제어기가 내부 표현을 직접 조작함으로써 각 저수준 토큰/행동을 순차적으로 생성할 필요 없이 더 긴 시간 범위에 걸쳐 계획할 수 있다는 점입니다.

결과 및 발견

EnvironmentStandard token‑by‑token RLInternal‑RL (latent controllers)Observations
2‑D 그리드 월드 (희소 목표)1M 스텝 내에 수렴하지 못함20만 스텝 미만으로 90 % 이상의 에피소드를 해결학습된 매크로 움직임 (예: “복도로 이동”)
MuJoCo Ant‑Maze (계층적 탐색)희소 보상에서 정체일관되게 목표에 도달하고 “직진”, “회전”, “오르기” 하위 정책을 학습컨트롤러가 가변 길이(≈10‑30 저수준 스텝) 후 종료
보지 못한 미로 레이아웃에 대한 전이일반화가 부족학습된 컨트롤러를 재사용하고 빠르게 적응잠재 행동의 구성성을 보여줌

전반적으로, 내부‑RL 에이전트는 희소 보상 작업에서 2–5× 빠른 학습을 달성하고, 인간이 설계한 기본 동작과 일치하는 해석 가능한 하위 행동을 보여준다.

실용적 함의

  • 기초 모델의 RL 파인튜닝 가속화: 개발자는 대규모 언어 또는 멀티모달 모델을 RL 작업(예: 로보틱스, 게임 AI)에 토큰 단위 탐색 비용 없이 빠르게 적용할 수 있습니다.
  • 계층적 스킬 라이브러리: 잠재 컨트롤러는 재사용 가능한 “스킬”로 작동하여 프로젝트 간에 저장·공유·조합이 가능하며, 새로운 환경마다 처음부터 학습할 필요성을 줄여줍니다.
  • 희소 보상 문제에 대한 샘플 효율성 향상: 자율 주행, 물류 로봇, 대화 시스템 등 성공 신호가 드문 분야에서 더 빠른 수렴을 기대할 수 있습니다.
  • 해석 가능성 및 디버깅: 각 컨트롤러가 의미론적으로 의미 있는 행동 조각에 대응하므로, 엔지니어는 전체 모델을 재학습하지 않고도 특정 서브‑정책을 검사·수정·교체할 수 있습니다.
  • 기존 파이프라인과의 호환성: 이 방법은 표준 RL 라이브러리(예: RLlib, Stable‑Baselines)에 바로 연결되며, 사전 학습된 자동 회귀 트랜스포머와도 호환되어 도입 장벽이 낮습니다.

제한 사항 및 향후 연구

  • 컨트롤러 크기 및 학습 비용: 비인과적 시퀀스 모델을 추가하면 파라미터와 메모리 오버헤드가 증가하여 매우 큰 베이스 모델에서는 부담이 될 수 있습니다.
  • 비인과적 가정: 고차 컨트롤러는 미래 컨텍스트(양방향 어텐션)에 의존하므로, 미래 관측이 제공되지 않는 순수 온라인 환경에서는 사용이 제한됩니다.
  • 작업 특이성: 실험은 계층 구조가 명확한 환경에 초점을 맞추었으며, 높은 확률적 특성을 갖거나 비계층적 과제에 대한 성능은 아직 불분명합니다.
  • 멀티모달 기반 모델 확장성: 내부‑RL을 비전‑언어 또는 오디오‑언어 모델에 적용하려면 이질적인 잠재 공간을 신중히 다루어야 합니다.

향후 연구 방향으로는 경량 컨트롤러 아키텍처, 온라인 호환 변형, 그리고 안전성과 지연 시간이 중요한 실제 로봇 플랫폼으로 접근 방식을 확장하는 것이 포함됩니다.

저자

  • Seijin Kobayashi
  • Yanick Schimpf
  • Maximilian Schlegel
  • Angelika Steger
  • Maciej Wolczyk
  • Johannes von Oswald
  • Nino Scherre
  • Kaitlin Maile
  • Guillaume Lajoie
  • Blake A. Richards
  • Rif A. Saurous
  • James Manyika
  • Blaise Agüera y Arcas
  • Alexander Meulemans
  • João Sacramento

논문 정보

  • arXiv ID: 2512.20605v1
  • 분류: cs.LG, cs.AI
  • 출판일: 2025년 12월 23일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...