[Paper] TraceGen：在 3D 轨迹空间中的世界建模实现跨体态视频学习

发布: 2个月前 (2025年11月27日 GMT+8 02:59)

3 分钟阅读

原文: arXiv

Source: arXiv - 2511.21690v1

概览

仅凭少量示范就让机器人在新平台和新场景中学习新任务仍然具有挑战性。虽然其他形态（如人类和不同机器人的）视频资源丰富，但形态、摄像头和环境的差异阻碍了它们的直接使用。我们通过引入一种统一的符号化表示——场景级轨迹的紧凑 3D trace‑space——来解决小数据问题，该表示能够从跨形态、跨环境和跨任务的视频中学习。

我们提出 TraceGen，一种在 trace‑space 而非像素空间预测未来运动的世界模型，它抽象掉外观信息，同时保留操控所需的几何结构。为大规模训练 TraceGen，我们开发了 TraceForge 数据管线，将异构的人类和机器人视频转换为一致的 3D 轨迹，生成了包含 123 K 视频和 1.8 M 观察‑轨迹‑语言三元组的语料库。

在该语料库上进行预训练可得到可迁移的 3D 运动先验，并能高效适应：仅使用五个目标机器人视频，TraceGen 在四个任务上即可实现 80 % 的成功率，同时推理速度比最先进的视频基世界模型快 50–600 倍。在更具挑战性的情形下，仅有五个用手持手机拍摄的未校准人类示范视频，仍能在真实机器人上达到 67.5 % 的成功率，凸显了 TraceGen 在无需物体检测器或繁重像素空间生成的情况下，实现跨形态适应的能力。

作者

Seungjae Lee
Yoonkyo Jung
Inkook Chun
Yao‑Chih Lee
Zikui Cai
Hongjia Huang
Aayush Talreja
Tan Dat Dao
Yongyuan Liang
Jia‑Bin Huang
Furong Huang

类别

cs.RO
cs.CV
cs.LG

论文信息

arXiv ID: 2511.21690v1
类别: cs.RO, cs.CV, cs.LG
发表时间: 2025年11月27日
PDF: Download PDF

[Paper] TraceGen：在 3D 轨迹空间中的世界建模实现跨体态视频学习

概览

作者

类别

论文信息

相关文章

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

[Paper] 面向自动安全驾驶指令：大规模视觉语言模型方法

[论文] G$^2$VLM: 基于几何的视觉语言模型，具备统一的 3D 重建与空间推理

[Paper] 视觉Transformer中非单调缩放机制