[Paper] Astra: 일반적인 인터랙티브 월드 모델과 자동회귀 디노이징
Source: arXiv - 2512.08931v1
Overview
Astra는 새로운 “인터랙티브 월드 모델”로, 실제 세계의 다양한 작업에 대해 현실적인 비디오 미래를 예측할 수 있습니다—예를 들어 자율 주행 대시캠 영상, 로봇 팔 조작, 혹은 게임 엔진에서 움직이는 카메라 등. diffusion‑style 비디오 생성과 autoregressive denoising 백본을 결합함으로써, Astra는 과거 프레임 과 명시적인 행동 명령(예: 조향 각도, 그리퍼 힘)을 받아 실시간으로 일관된 장기 비디오 예측을 스트리밍할 수 있습니다.
Key Contributions
- 범용 인터랙티브 월드 모델 – 카메라 움직임, 로봇 관절 명령, 내비게이션 행동 등 이질적인 행동 양식 전반에 걸쳐 작동합니다.
- Autoregressive denoising architecture – 인과적 히스토리를 조건으로 하여 한 번에 하나의 프레임을 디노이징하는 diffusion transformer로, 스트리밍 예측을 가능하게 합니다.
- Noise‑augmented history memory – 과거 프레임에 제어된 노이즈를 주입해 모델이 정확한 과거에 과적합되는 것을 방지하고, 반응성 및 시간적 일관성 사이의 균형을 맞춥니다.
- Action‑aware adapter – 행동 벡터를 디노이징 레이어에 직접 주입하는 경량 플러그인으로, 예측된 비디오와 제공된 제어 신호 사이의 정밀한 정렬을 보장합니다.
- Mixture‑of‑action‑experts routing – 각 행동 유형(예: 연속 조향 vs. 이산 그립 명령)에 맞는 전문가를 동적으로 선택해 작업 전반에 걸친 다재다능성을 향상시킵니다.
- State‑of‑the‑art results – 비디오 품질, 긴 예측 지평선, 그리고 행동‑비디오 정렬 측면에서 운전 데이터셋부터 로봇 조작 스위트까지 다양한 벤치마크에서 최첨단 성능을 달성합니다.
Methodology
- Temporal Causal Attention – 모델은 인과 마스크가 적용된 슬라이딩 윈도우 형태의 과거 프레임을 처리하므로, 각 예측은 이전 프레임만을 보게 되어 실시간 인지를 모방합니다.
- Autoregressive Denoising – 노이즈가 섞인 잠재 공간에서 시작해 Astra는 이미 생성된 프레임을 조건으로 하여 한 번에 하나의 프레임을 반복적으로 디노이징합니다. 이는 이미지용 diffusion 모델과 유사하지만 시간 차원을 확장한 형태입니다.
- Noise‑Augmented History Memory – 과거 프레임을 트랜스포머에 입력하기 전에 소량의 가우시안 노이즈를 추가합니다. 이는 네트워크가 시각적 컨텍스트와 들어오는 행동 신호 모두에 의존하도록 강제해 “복사‑붙여넣기”를 방지합니다.
- Action‑Aware Adapter – 행동 벡터를 투영해 각 디노이징 단계의 중간 토큰 임베딩에 더함으로써, 모델이 제어 입력에 기반해 픽셀 수준 변화를 직접 조절할 수 있는 경로를 제공합니다.
- Mixture of Action Experts – 게이팅 네트워크가 들어오는 행동 유형을 검사하고, 해당 행동에 특화된 전문가(예: 조향을 위한 연속 제어 전문가, 조작을 위한 이산 그립 전문가)로 신호를 라우팅합니다. 출력은 디노이징 파이프라인에 들어가기 전에 융합됩니다.
모든 구성 요소는 표준 diffusion 손실(추가된 노이즈 예측)과 보조 행동‑정렬 손실(명령된 행동과 생성된 비디오 내 움직임 간 불일치를 패널티)로 엔드‑투‑엔드 학습됩니다.
Results & Findings
| Dataset | Horizon (frames) | FVD ↓ (lower better) | Action‑Alignment ↑ |
|---|---|---|---|
| CARLA (driving) | 30 | 45.2 (vs. 68.7 SOTA) | 0.84 |
| RoboNet (robot grasp) | 20 | 38.9 (vs. 55.1) | 0.79 |
| Kinetics‑400 (camera motion) | 25 | 52.3 (vs. 71.4) | 0.81 |
- Higher fidelity: Astra의 비디오는 2‑3초의 예측 이후에도 미세한 텍스처와 움직임 단서를 유지합니다.
- Longer coherent horizons: 노이즈‑증강 메모리가 모델이 시간적으로 일관성을 유지하면서 드리프트 없이 작동하도록 합니다.
- Tighter action alignment: 행동‑aware 어댑터는 이전 월드 모델에 비해 명령된 조향 각도와 예측된 차선 곡률 사이의 평균 편차를 약 30 % 감소시킵니다.
정성적인 데모에서는 Astra가 조향 명령을 받았을 때 직진 구간에서 급커브로 부드럽게 전환하고, 로봇 팔이 목표 물체가 움직일 때 그립을 올바르게 조정하는 모습을 보여줍니다.
Practical Implications
| Industry | How Astra Helps |
|---|---|
| Autonomous Vehicles | 실시간 “what‑if” 시나리오를 시뮬레이션해 안전 검증에 활용하거나, 정확한 제어 입력을 반영한 합성 학습 데이터를 생성합니다. |
| Robotics | 조작을 위한 실시간 시각적 선견지명을 제공—예를 들어 로봇이 그립을 실행하기 전에 결과를 미리 확인해 실패 시도를 줄입니다. |
| AR/VR & Gaming | 플레이어 행동에 반응하는 인터랙티브 컷신을 스트리밍해 사전 제작된 애니메이션 없이 콘텐츠 제작 비용을 낮춥니다. |
| Surveillance & Predictive Maintenance | 계획된 카메라 움직임 하에서의 뷰를 예측해 점검 드론의 최적 시점 선택을 지원합니다. |
| Research & Simulation | 임의의 행동 벡터에 조건화할 수 있는 플러그‑앤‑플레이 월드 모델을 제공해 새로운 제어 알고리즘 프로토타이핑을 가속화합니다. |
Astra는 인과적 어텐션을 갖춘 autoregressive 방식으로 동작하므로, 온라인 예측을 위해 엣지 GPU에 배치할 수 있어 폐쇄‑루프 제어에서 중요한 지연 시간을 최소화합니다.
Limitations & Future Work
- Compute‑heavy: autoregressive diffusion은 프레임당 여러 디노이징 단계를 필요로 하므로 초저지연 애플리케이션에 병목이 될 수 있습니다.
- Action modality scaling: mixture‑of‑experts가 여러 이산/연속 행동을 다루지만, 완전히 새로운 모달리티(예: 자연어 명령)를 추가하려면 재학습이나 새로운 전문가 헤드가 필요합니다.
- Domain gap: 모델은 정제된 데이터셋으로 학습되었으며, 추가 파인‑튜닝 없이 매우 구조화되지 않은 환경(예: 오프‑로드 주행)에서는 성능이 저하될 수 있습니다.
향후 연구 방향은 distillation을 통해 autoregressive 디노이저를 단일‑스텝 예측기로 압축하고, 전문가 라이브러리를 다중모달 언어‑행동 입력으로 확장하며, 실제 상호작용 피드백을 통해 Astra가 예측을 개선하도록 하는 강화학습 루프를 통합하는 것입니다.
Authors
- Yixuan Zhu
- Jiaqi Feng
- Wenzhao Zheng
- Yuan Gao
- Xin Tao
- Pengfei Wan
- Jie Zhou
- Jiwen Lu
Paper Information
- arXiv ID: 2512.08931v1
- Categories: cs.CV, cs.AI, cs.LG
- Published: December 9, 2025
- PDF: Download PDF