[Paper] 扩散了解透明性:重新利用 Video Diffusion 进行透明物体深度和法线估计

发布: (2025年12月30日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.23705v1

概述

透明和反光的物体——比如玻璃杯、抛光金属工具或透明塑料容器——长期以来一直是计算机视觉系统的噩梦。新论文表明,已经擅长 生成 逼真透明效果的现代视频扩散模型,可以被重新用于 理解 这些效果。通过在大规模合成视频数据集上训练一个轻量级适配器,作者实现了透明场景的最先进深度和表面法线估计,即使在真实世界视频中也表现出色,并展示了在机器人抓取中的实际提升。

关键贡献

  • TransPhy3D 数据集:11 k 高保真合成视频序列,包含透明/反射物体,使用基于物理的光线追踪渲染(RGB、深度和法线)。
  • DKT(Diffusion‑Knows‑Transparency)模型:基于预训练视频扩散骨干网络(DiT)并配备小型 LoRA 适配器的视频到视频翻译网络,联合在合成数据和现有数据集上训练。
  • 零样本 SOTA 性能:在 ClearPose、DREDS(CatKnown/CatNovel)以及保留的 TransPhy3D 测试集等基准上超越图像和视频基线。
  • 时间一致性:模型能够为任意长度的视频生成平滑的深度/法线流,解决了帧级方法常见的失效问题。
  • 真实世界影响:已集成到机器人抓取流水线中,DKT 的深度预测在透明、反射和漫反射物体上的成功率相较于之前的估计器有所提升。
  • 高效推理:紧凑的 1.3 B 参数版本每帧约 0.17 秒,适合机器人现场部署。

方法论

  1. Synthetic data generation – 使用 Blender 的 Cycles 渲染器和 OptiX 去噪,作者构建了一个包含静态和程序化 3D 资产(杯子、瓶子、金属部件等)的库,并应用了玻璃、塑料和金属着色器。每个场景生成同步的 RGB、深度和法线图。
  2. Video diffusion backbone – 他们从一个大型预训练视频扩散模型(DiT)开始,该模型已经捕捉到光传输的物理特性,因为它在数十亿自然视频上进行过训练。
  3. LoRA adapters for translation – 将轻量级低秩适配(LoRA)模块插入扩散模型的注意力层。在训练期间,RGB 帧和 噪声 深度潜在向量被拼接后送入骨干网络,教会网络将视频帧映射为深度(或法线)流。
  4. Joint training – 模型在新的 TransPhy3D 语料库和现有的合成帧级数据集上进行微调,促使其在跨域泛化的同时保持时间一致性。
  5. Inference – 在测试时,输入视频通过适配后的扩散模型,模型直接输出同等长度的深度(或法线)视频,无需任何后处理或逐帧优化。

结果与发现

基准指标(越低越好)DKT 与 之前最佳
ClearPose(depth)RMSE ↓ 0.12 + 23 % 改进
DREDS(CatKnown)Abs‑Rel ↓ 0.08 + 19 %
DREDS(CatNovel)Abs‑Rel ↓ 0.09 + 21 %
TransPhy3D‑Test(depth)MAE ↓ 0.07 + 25 %
ClearPose(normals)角误差 ↓ 6.3° + 18 %
  • 时间平滑性:DKT 将帧间深度抖动降低了 >30 % ,相较于最强视频基线。
  • 真实世界抓取:在使用 7‑DoF 机械臂的抓取‑放置实验中,透明物体的成功率从 62 %(之前的估计器)提升到使用 DKT 深度的 81 %。
  • 速度:1.3 B 模型在单个 RTX 4090 上以约 6 FPS 处理 30‑fps 视频,适用于许多机器人循环。

实际意义

  • 机器人与操作 – 对玻璃或抛光金属的可靠深度感知,使机器人能够在无需昂贵触觉传感器的情况下处理实验器皿、厨房用具和工业部件。
  • AR/VR 与混合现实 – 对透明物体的准确表面法线提升头戴显示器中反射和折射的真实渲染效果。
  • 自主检测 – 无人机或检测机器人现在可以对玻璃幕墙或反光机械表面生成一致的三维地图。
  • 低成本感知 – 由于模型是从公开的扩散检查点微调而来,开发者无需收集标注的透明物体数据集即可获得高质量深度。
  • 即插即用 – 视频到视频的翻译接口意味着现有感知流水线只需最小的代码改动(只需输入 RGB 视频并读取深度输出),即可替换为 DKT。

Limitations & Future Work

  • Synthetic‑to‑real gap – 虽然 zero‑shot 性能很强,但在极端光照条件(例如强背光)下仍会偶尔出现失败。
  • Material diversity – 当前资产库侧重于常见的玻璃、塑料和金属;如磨砂玻璃或各向异性金属等特殊材料尚未覆盖。
  • Scalability to ultra‑high‑resolution video – 1.3 B 模型在 720p 下运行舒适;要扩展到 4K 需要进一步优化或模型剪枝。
  • Future directions suggested by the authors include expanding the synthetic corpus with more varied illumination, integrating multi‑modal cues (e.g., polarization), and exploring end‑to‑end training that jointly optimizes depth, normals, and downstream control policies.

作者

  • Shaocong Xu
  • Songlin Wei
  • Qizhe Wei
  • Zheng Geng
  • Hong Li
  • Licheng Shen
  • Qianpu Sun
  • Shu Han
  • Bin Ma
  • Bohan Li
  • Chongjie Ye
  • Yuhang Zheng
  • Nan Wang
  • Saining Zhang
  • Hao Zhao

论文信息

  • arXiv ID: 2512.23705v1
  • 分类: cs.CV
  • 出版时间: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……