[Paper] TraceGen:在 3D 轨迹空间中的世界建模实现跨体态视频学习
Source: arXiv - 2511.21690v1
概览
仅凭少量示范就让机器人在新平台和新场景中学习新任务仍然具有挑战性。虽然其他形态(如人类和不同机器人的)视频资源丰富,但形态、摄像头和环境的差异阻碍了它们的直接使用。我们通过引入一种统一的符号化表示——场景级轨迹的紧凑 3D trace‑space——来解决小数据问题,该表示能够从跨形态、跨环境和跨任务的视频中学习。
我们提出 TraceGen,一种在 trace‑space 而非像素空间预测未来运动的世界模型,它抽象掉外观信息,同时保留操控所需的几何结构。为大规模训练 TraceGen,我们开发了 TraceForge 数据管线,将异构的人类和机器人视频转换为一致的 3D 轨迹,生成了包含 123 K 视频和 1.8 M 观察‑轨迹‑语言三元组的语料库。
在该语料库上进行预训练可得到可迁移的 3D 运动先验,并能高效适应:仅使用五个目标机器人视频,TraceGen 在四个任务上即可实现 80 % 的成功率,同时推理速度比最先进的视频基世界模型快 50–600 倍。在更具挑战性的情形下,仅有五个用手持手机拍摄的未校准人类示范视频,仍能在真实机器人上达到 67.5 % 的成功率,凸显了 TraceGen 在无需物体检测器或繁重像素空间生成的情况下,实现跨形态适应的能力。
作者
- Seungjae Lee
- Yoonkyo Jung
- Inkook Chun
- Yao‑Chih Lee
- Zikui Cai
- Hongjia Huang
- Aayush Talreja
- Tan Dat Dao
- Yongyuan Liang
- Jia‑Bin Huang
- Furong Huang
类别
- cs.RO
- cs.CV
- cs.LG
论文信息
- arXiv ID: 2511.21690v1
- 类别: cs.RO, cs.CV, cs.LG
- 发表时间: 2025年11月27日
- PDF: Download PDF