[Paper] CRISP:接触引导的 Real2Sim 从单目视频与平面场景基元
Source: arXiv - 2512.14696v1
概述
本文提出了 CRISP,一个将普通单目视频转换为可用于物理仿真的人类表演者及其周围环境的管线。通过将简单的平面基元拟合到点云重建,并利用人物姿态提供的接触线索,CRISP 生成干净、无碰撞的几何体,可直接输入强化学习(RL)控制器。其结果是运动跟踪失败显著下降,仿真速度大幅提升,为机器人、AR/VR 和交互式 AI 中的大规模真实到仿真(real‑to‑sim)管线打开了大门。
关键贡献
- 基于接触的场景重建 – 利用人体姿态和接触点推断被遮挡的表面(例如椅子座位的隐藏部分)。
- 平面基元拟合 – 通过对深度、表面法线和光流进行轻量级聚类,得到凸形、可直接用于仿真的几何体,取代嘈杂的网格。
- 物理回环验证 – 通过驱动类人强化学习控制器来测试恢复的人体和场景,确保物理合理性。
- 显著的性能提升 – 将基准数据集上的运动跟踪失败率从55.2 %降低至6.9 %,并将强化学习仿真速度提升约43 %。
- 广泛的适用性 – 在受控数据集(EMDB、PROX)以及野外视频、网络片段,甚至 AI 生成(Sora)素材上均有展示。
方法论
-
单目视频 → 稠密点云
- 现成的多视角结构光束法(SfM)和深度估计网络生成每帧点云,并附带表面法线和光流。
-
聚类为平面基元
- 根据深度、法线方向和运动一致性对点进行分组。
- 每个簇用一个凸平面基元近似(例如,桌面可用矩形表示)。这产生了整洁的低多边形场景表示,便于物理引擎处理。
-
基于接触的遮挡补全
- 人体姿态估计识别接触点(脚踩地面、手扶椅子等)。
- 当接触面部分被遮挡时,算法利用已知姿态和平面基元模型外推缺失的几何形状。
-
人体运动提取
- 单独的姿态跟踪网络恢复随时间变化的 3D 骨架。
- 将骨架重新映射到具有关节限制和动力学的全身人形模型。
-
通过强化学习进行物理验证
- 将重建的场景和人形模型输入强化学习控制器,尝试复现观察到的运动。
- 若控制器能够在不发生碰撞或不稳定的情况下跟随轨迹,则接受重建;否则,流水线迭代以细化几何或接触信息。
整个过程全自动运行在单个 GPU 上,使其能够实用于大规模视频集合。
结果与发现
| Dataset | Baseline Failure Rate | CRISP Failure Rate | 加速 (RL steps/sec) |
|---|---|---|---|
| EMDB | 55.2 % | 6.9 % | +43 % |
| PROX | 48.7 % | 7.4 % | +41 % |
- 失败率 衡量 RL 控制器因几何错误或相互穿透而无法重现记录动作的频率。
- 仿真吞吐量 提升,因为平面基元降低了碰撞检测的复杂度。
- 对 YouTube 风格剪辑和 Sora 生成视频的定性测试表明,即使只有少数帧显示目标,CRISP 仍能重建合理的椅子、桌子和地面。
总体而言,作者展示了 接触感知 方法相比之前的数据驱动、与物理无关的流水线,能够产生更可靠且更快速的仿真。
实际意义
- 机器人 – 机器人可以在与真实世界完全相同的、由单摄像头捕获的环境中进行仿真训练,从而缩小在家庭助理或仓库导航等任务中的“现实差距”。
- AR/VR 内容创作 – 游戏开发者和 XR 设计师可以直接从消费级视频素材生成交互场景,无需手动建模,从而实现沉浸式体验的快速原型制作。
- 用于安全分析的数字孪生 – 工程师可以通过监控视频重建工人的动作及周围设备,在虚拟沙盒中评估人体工效或碰撞风险。
- 数据高效的强化学习 – 更干净的几何模型意味着更少的物理违规,使得强化学习代理能够更快学习、所需仿真步数更少,从而降低计算成本。
由于该流水线能够处理“野外”视频,它可以扩展至海量公共视频档案,进而有望构建一个可直接用于仿真的人机交互库。
局限性与未来工作
- 平面假设 – 该方法在以平坦表面为主的环境中表现出色;高度弯曲或有机的物体(例如沙发、植物)可能会被过度简化。
- 依赖精确的姿态与深度 – 上游姿态估计器或深度网络的误差会传播,尤其在低光或快速运动的片段中。
- 静态场景聚焦 – 动态物体(移动的椅子、门)未被显式建模;将 CRISP 扩展至处理运动场景元素仍是一个未解挑战。
- 接触推断的可扩展性 – 虽然接触线索有助于填补遮挡,但复杂的多人交互可能需要更高级的推理。
未来的方向包括为非平面物体集成学习的形状先验、处理动态场景变化,以及在强化学习(RL)反馈与几何细化之间建立更紧密的循环,以实现完全自主的真实到仿真(real‑to‑sim)流水线。
作者
- Zihan Wang
- Jiashun Wang
- Jeff Tan
- Yiwen Zhao
- Jessica Hodgins
- Shubham Tulsiani
- Deva Ramanan
论文信息
- arXiv ID: 2512.14696v1
- 类别: cs.CV, cs.GR, cs.RO
- 发表时间: 2025年12月16日
- PDF: 下载 PDF