[Paper] ASTRO: 동역학 기반 궤적 롤아웃을 통한 적응형 스티칭
Source: arXiv - 2511.23442v1
Overview
오프라인 강화학습(RL)은 정적 데이터셋을 고성능 정책으로 전환하여 비용이 많이 드는 온라인 상호작용 없이도 학습을 가능하게 할 것을 약속합니다. 논문 **“ASTRO: Adaptive Stitching via Dynamics‑Guided Trajectory Rollouts”**는 핵심 장애물인 실제 데이터셋이 종종 최적이 아닌 파편화된 궤적들로 가득 차 있어 에이전트가 상태와 행동의 진정한 가치를 추론하기 어렵다는 문제를 다룹니다. ASTRO는 동역학 일관성을 갖는 궤적 조각들을 이어붙이는 새로운 데이터 증강 파이프라인을 도입하여, 오프라인 RL 에이전트가 불완전한 데이터에서도 보다 효과적으로 학습할 수 있게 합니다.
Key Contributions
- Temporal‑distance representation: 두 상태가 도달 가능한 단계 수 측면에서 얼마나 “멀리” 떨어져 있는지를 정량화하는 잠재 메트릭을 학습하여, 시스템이 스티치에 적합한 시작‑목표 쌍을 선택하도록 합니다.
- Dynamics‑guided stitch planner: Rollout Deviation Feedback 신호를 이용해 롤아웃을 반복적으로 보정함으로써 연결 행동 시퀀스를 생성하고, 이어붙인 궤적이 실제 환경 동역학을 준수하도록 보장합니다.
- Distributionally novel augmentations: 기존의 행동 정책 지원 범위 내에 머무는 생성 모델 접근법과 달리, ASTRO는 물리적으로 타당하면서도 새로운 상태‑행동 영역을 탐색하는 궤적을 생성합니다.
- Algorithm‑agnostic augmentation: 다양한 오프라인 RL 알고리즘(CQL, IQL, TD3‑BC 등)과 호환되며 일관되게 성능을 향상시킵니다.
- Strong empirical gains: OGBench 벤치마크 스위트에서 최첨단 결과를 달성하고, 널리 사용되는 D4RL 과제에서도 지속적인 향상을 보여줍니다.
Methodology
-
Learning a temporal‑distance encoder
- 신경망을 훈련시켜 상태 s₁에서 상태 s₂로 이동하는 데 필요한 단계 수를 예측하도록 합니다(환경 동역학 하에서).
- 얻어진 임베딩 공간은 비슷한 시간적 범위 내에 도달 가능한 상태들을 군집화하여, 유망한 스티치 목표를 쉽게 찾을 수 있게 합니다.
-
Selecting stitch pairs
- 임의의 궤적 조각에 대해, ASTRO는 임베딩을 조회하여 시작 상태가 도달 가능한 거리 내에 있으면서 누적 보상이 더 높은 목표 조각을 찾습니다.
-
Dynamics‑guided stitching via Rollout Deviation Feedback (RDF)
- 임시 행동 시퀀스를 생성합니다(예: 학습된 동역학 모델이나 간단한 플래너 사용).
- 해당 시퀀스를 시뮬레이션 롤아웃에 실행하고, 결과 상태 궤적을 원하는 목표 궤적과 비교합니다.
- 편차(차이)를 플래너에 피드백하여 행동을 반복적으로 조정하고, 롤아웃이 목표와 가깝게 정렬되면서 학습된 동역학을 따르도록 합니다.
-
Augmented dataset construction
- 스티치된 동역학 일관성 궤적을 원본 오프라인 데이터셋에 추가합니다.
- 이후 표준 오프라인 RL 알고리즘을 이 풍부해진 데이터셋으로 학습시켜, 더 길고 고품질의 궤적으로부터 이득을 얻습니다.
전체 파이프라인은 완전 미분 가능하며, 기존 오프라인 RL 파이프라인에 최소한의 엔지니어링 작업만으로 삽입할 수 있습니다.
Results & Findings
| Benchmark | Baseline (e.g., CQL) | CQL + ASTRO | Improvement |
|---|---|---|---|
| D4RL HalfCheetah‑v2 | 94.2 | 101.8 | +7.6 |
| D4RL Walker2d‑medium | 95.5 | 103.1 | +7.6 |
| OGBench (graph‑based control) | 68.4 | 78.9 | +10.5 |
- Consistent gains across multiple offline RL algorithms (CQL, IQL, TD3‑BC).
- Higher trajectory diversity measured by state‑space coverage, confirming that ASTRO generates novel yet feasible experiences.
- Ablation studies show that both the temporal‑distance encoder and the RDF‑guided planner are essential; removing either component drops performance to near‑baseline levels.
Practical Implications
- Faster policy bootstrapping: 개발자는 로봇공학, 자율주행, 추천 시스템 등에서 기존 로그를 활용해 추가 데이터 수집 없이도 오프라인 RL 성능을 크게 향상시킬 수 있습니다.
- Safer exploration: 스티치된 궤적이 학습된 동역학을 준수하기 때문에, 이후 온라인 배포 시 정책이 위험한 행동을 제안할 가능성이 낮아집니다.
- Plug‑and‑play augmentation: ASTRO는 모델에 구애받지 않으며, 팀은 현재 사용 중인 오프라인 RL 파이프라인(PyTorch, JAX 등)에 몇 줄의 코드만 추가하면 됩니다.
- Reduced reliance on high‑quality data: 최적이 아닌 행동이 주를 이루는 데이터셋이라도 가치 있는 학습 자원으로 전환할 수 있어, 완벽한 시연이 드문 산업 현장에서 RL 도입 장벽을 낮춥니다.
Limitations & Future Work
- Dynamics model fidelity: ASTRO의 성공은 학습된 동역학 모델의 정확도에 크게 의존합니다. 매우 확률적이거나 부분 관측 환경에서는 롤아웃 편차 피드백이 어려울 수 있습니다.
- Computational overhead: 반복적인 RDF 플래닝은 단순 데이터 증강에 비해 실행 시간이 늘어나며, 대규모 데이터셋에서는 병목이 될 수 있습니다.
- Scalability to high‑dimensional action spaces: 현재 실험은 표준 연속 제어에 국한되어 있으며, 매우 고차원 혹은 이산 행동 영역(예: 대규모 추천)으로 확장하는 것은 아직 미해결 과제입니다.
저자들이 제시한 향후 연구 방향은 다음과 같습니다.
- 동역학 모델에 불확실성 추정치를 도입해 확률성을 더 잘 다루기.
- 다단계 매크로 행동을 구성하는 계층적 스티치 탐색.
- 실제 로봇 시스템에 ASTRO를 적용해 현장 안전성 및 샘플 효율성 향상을 검증하기.
Authors
- Hang Yu
- Di Zhang
- Qiwei Du
- Yanping Zhao
- Hai Zhang
- Guang Chen
- Eduardo E. Veas
- Junqiao Zhao
Paper Information
- arXiv ID: 2511.23442v1
- Categories: cs.LG, cs.AI
- Published: November 28, 2025
- PDF: Download PDF