[Paper] TraceGen: 3D 트레이스 공간에서의 세계 모델링은 교차 구현 비디오 학습을 가능하게 합니다
Source: arXiv - 2511.21690v1
Overview
새로운 플랫폼과 새로운 장면에서 소수의 시연만으로 로봇 작업을 학습하는 것은 여전히 어려운 과제입니다. 인간 및 다양한 로봇과 같은 다른 구현체의 비디오가 풍부하지만, 구현체, 카메라, 환경의 차이 때문에 이를 직접 활용하기가 어렵습니다. 우리는 장면‑수준 궤적의 압축된 3D 트레이스‑스페이스라는 통합된 상징적 표현을 도입하여, 구현체 간, 환경 간, 작업 간 비디오로부터 학습할 수 있게 함으로써 소량 데이터 문제를 해결합니다.
우리는 TraceGen을 제시합니다. 이는 픽셀 공간이 아니라 트레이스‑스페이스에서 미래 움직임을 예측하는 월드 모델로, 외관을 추상화하면서도 조작에 필요한 기하학적 구조를 유지합니다. TraceGen을 대규모로 학습시키기 위해, 우리는 TraceForge라는 데이터 파이프라인을 개발했습니다. 이 파이프라인은 이질적인 인간 및 로봇 비디오를 일관된 3D 트레이스로 변환하여, 123 K개의 비디오와 1.8 M개의 관찰‑트레이스‑언어 삼중항을 포함하는 코퍼스를 생성합니다.
이 코퍼스로 사전 학습된 3D 모션 프라이어는 효율적으로 전이됩니다: 목표 로봇 비디오 5개만으로도 TraceGen은 네 가지 작업에서 80 % 성공률을 달성하고, 최첨단 비디오 기반 월드 모델에 비해 50–600배 빠른 추론 속도를 제공합니다. 핸드헬드 폰으로 촬영된 보정되지 않은 인간 시연 비디오 5개만 사용할 수 있는 더 어려운 경우에도, 실제 로봇에서 67.5 % 성공률을 기록하여, 객체 탐지기나 무거운 픽셀‑공간 생성에 의존하지 않고 구현체 간 적응이 가능함을 보여줍니다.
Authors
- 이승재
- 정윤교
- 천인국
- 이요치
- 차지쿠이
- 황홍자
- 아유시 탈레자
- 다오 탄 닷
- 량용위안
- 황지빈
- 황푸룡
Categories
- cs.RO
- cs.CV
- cs.LG
Paper Information
- arXiv ID: 2511.21690v1
- Categories: cs.RO, cs.CV, cs.LG
- Published: 2025년 11월 27일
- PDF: Download PDF