[Paper] WorldCompass: 장기 월드 모델을 위한 강화 학습

발행: 3일 전 (2026년 2월 10일 오전 03:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.09022v1

(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)

개요

WorldCompass는 새로운 강화학습(RL) 사후 훈련 프레임워크로, 장기 시계열 비디오 기반 세계 모델을 업그레이드하여 사용자 상호작용에 대해 보다 신뢰성 있게 탐색하고 반응할 수 있게 합니다. 세계 모델을 자동회귀 비디오 생성기로 취급하고, 정교하게 설계된 보상으로 “조종”함으로써, 저자들은 상호작용 정확도와 시각적 품질이 눈에 띄게 향상된 것을 확인했습니다—이는 보다 실용적인 시뮬레이션 및 생성 AI 시스템을 향한 핵심 단계입니다.

Key Contributions

Clip‑level rollout strategy – 단일 목표 구간에서 다수의 후보 비디오 클립을 생성·평가하여 rollout 효율을 크게 향상시키고 세밀한 보상 신호를 제공한다.
Dual‑objective reward design – 상호작용‑추종 정확도 보상과 시각‑품질 보상을 결합하여 직접적인 감독을 제공하면서 보상 해킹을 억제한다.
Negative‑aware fine‑tuning RL algorithm – 바람직하지 않은 생성물을 벌점으로 처리하고 여러 효율성 트릭을 도입해 학습을 빠르고 메모리 친화적으로 유지하는 경량 RL 업데이트.
Demonstrated gains on WorldPlay – 최첨단 오픈소스 월드 모델인 WorldPlay에 WorldCompass를 적용해 모델이 명령을 따르는 정도와 생성 비디오의 현실감 모두에서 일관된 향상을 달성했다.

Methodology

WorldCompass는 기존의 자동회귀 비디오 월드 모델(예: WorldPlay)을 기반으로 구축됩니다. 워크플로는 세 가지 직관적인 단계로 나눌 수 있습니다:

Clip‑level rollout – 전체 긴 비디오를 프레임 단위로 롤아웃하는 대신, 시스템은 동일한 컨텍스트에서 시작하는 완전한 짧은 클립(예: 2‑3 초) 집합을 샘플링합니다. 각 클립은 점수가 매겨져, RL 루프가 희소한 에피소드 종료 신호가 아니라 밀집된 클립‑레벨 보상을 받을 수 있게 합니다.
Reward engineering
- Interaction accuracy: 생성된 클립이 지정된 행동 순서(예: “컵을 집어 들어라”)를 얼마나 정확히 따르는지 측정합니다.
- Visual fidelity: 지각 메트릭(예: LPIPS, 프레임‑레벨 선명도)을 사용해 비디오가 현실성을 유지하도록 합니다.
  두 보상은 하나의 메트릭을 “게임화”하여 다른 메트릭을 희생하는 것을 방지하는 가중치 스킴으로 합산됩니다.
Negative‑aware fine‑tuning – 시각 품질이 낮거나 상호작용 오류가 큰 클립에 대해 명시적으로 페널티를 부여하는 경량 정책‑그라디언트 업데이트입니다. 저자들은 또한 그래디언트 캐싱, 혼합 정밀도 학습, 배치‑단위 클립 선택을 통합해 추가 RL 오버헤드를 최소화합니다.

이 모든 과정은 기본 월드 모델이 이미 학습된 후에 수행되므로, 개발자는 기존 비디오 생성 파이프라인에 WorldCompass를 플러그인 형태로 적용할 수 있으며, 처음부터 재학습할 필요가 없습니다.

결과 및 발견

Interaction accuracy가 ≈15‑20 % 향상되어, 객체 조작, 내비게이션 등 벤치마크 작업군에서 기존 WorldPlay 모델에 비해 더 높은 성능을 보입니다.
Visual quality(LPIPS 및 사용자 선호도 조사 기준)도 10‑12 % 상승했으며, 깜빡임이나 비현실적인 텍스처와 같은 아티팩트가 감소했습니다.
Efficiency: 클립‑레벨 롤아웃을 사용하면 전체 에피소드 평가에 필요한 포워드 패스 수가 ≈3× 줄어들고, RL 파인‑튜닝은 에포크당 추가 학습 시간이 **≈0.5‑1 %**에 불과합니다.
Ablation studies는 각 구성 요소(클립‑레벨 롤아웃, 듀얼 리워드, 네거티브‑어웨어 업데이트)가 의미 있게 기여함을 확인했습니다. 이 중 하나라도 제거하면 성능이 베이스라인 수준으로 회귀합니다.

Practical Implications

Simulation & robotics – 개발자는 WorldCompass‑강화 모델을 가상 환경에 삽입하여 로봇 정책 테스트를 보다 충실히 수행할 수 있으며, 명령에 대한 정확한 반응이 중요합니다.
Interactive media – 게임 스튜디오와 VFX 파이프라인은 시나리오를 유지하면서도 영화 같은 품질을 보장하는 더 길고 제어 가능한 비디오 시퀀스를 생성할 수 있습니다.
Generative AI assistants – 채팅 기반 비디오 생성 도구는 현재 모델에서 흔히 발생하는 “드리프트” 없이도 더 긴, 지시를 따르는 클립을 만들 수 있습니다.
Plug‑and‑play upgrade – WorldCompass가 사후 학습 래퍼로 작동하기 때문에 기존 월드 모델 배포를 최소한의 엔지니어링 작업으로, 대규모 비디오 데이터셋을 다시 수집하지 않고도 업그레이드할 수 있습니다.

Limitations & Future Work

Domain specificity – 실험은 실내, 객체 중심 장면에 초점을 맞추었으며, 야외나 매우 동적인 도메인(예: 스포츠)에서의 성능은 아직 검증되지 않았습니다.
Reward balance tuning – 상호작용 보상과 시각 보상 사이의 적절한 가중치를 선택하는 데 여전히 수동적인 하이퍼파라미터 탐색이 필요합니다.
Scalability to very long horizons – 클립 수준 롤아웃이 학습을 가속화하지만, 실제로 시간 단위의 일관된 영상을 생성하려면 계층적 계획 확장이 필요할 수 있습니다.
Future directions suggested by the authors include integrating language‑conditioned rewards, exploring multi‑agent interaction scenarios, and releasing a lightweight API for broader community adoption.

저자

Zehan Wang
Tengfei Wang
Haiyu Zhang
Xuhui Zuo
Junta Wu
Haoyuan Wang
Wenqiang Sun
Zhenwei Wang
Chenjie Cao
Hengshuang Zhao
Chunchao Guo
Zhou Zhao

논문 정보

arXiv ID: 2602.09022v1
Categories: cs.CV
Published: 2026년 2월 9일
PDF: PDF 다운로드

[Paper] WorldCompass: 장기 월드 모델을 위한 강화 학습

개요

Key Contributions

Methodology

결과 및 발견

Practical Implications

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] SurfPhase: 희소 비디오에서 얻은 2상 흐름의 3D 계면 역학

[논문] GENIUS: 생성형 유동 지능 평가 스위트

[Paper] PhyCritic: Physical AI를 위한 멀티모달 Critic 모델

[Paper] 생체 보행 인식을 위한 제1회 국제 StepUP 대회: 방법, 결과 및 남은 과제