[Paper] 高效重建动态场景：一次一个 D4RT

发布: 2个月前 (2025年12月10日 GMT+8 02:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.08924v1

概览

本文提出了 D4RT，一种前馈 Transformer，能够仅凭单个视频片段重建动态场景的完整 3‑D 几何、运动以及相机位姿。通过用轻量级的查询接口取代常规的密集、逐帧解码流水线，D4RT 在多种 4‑D（空间 + 时间）重建基准上实现了最先进的结果，同时速度大幅提升，训练更为简便。

主要贡献

统一的 Transformer 主干：同时从原始视频预测深度、稠密时空对应关系以及完整的相机内外参。
基于查询的解码：不必为每一帧解码整个特征图，模型直接响应任意 3‑D‑加‑时间查询，计算量降低数个数量级。
任务无关接口：同一解码器即可获取深度、运动向量或相机参数，无需额外的头部。
可扩展的训练：前馈设计消除了循环或迭代细化步骤，能够在普通 GPU 上使用大量视频片段进行批量训练。
最先进的性能：在多个 4‑D 重建任务（动态场景流、多视角深度、相机位姿估计）上实现了领先水平，推理速度比已有方法快至 3 倍。

方法论

主干编码 – 将视频划分为重叠的时空补丁，线性嵌入后送入标准的 Vision Transformer (ViT)。位置编码同时捕获空间位置和时间索引。
统一潜在空间 – Transformer 生成一组潜在 token，联合编码几何、运动和相机信息，无需独立分支。
查询机制 – 为获取时间 t 的特定 3‑D 点，用户提供包含 (x, y, z, t) 坐标的查询向量。该查询与潜在 token 进行交叉注意，产生紧凑表示，再通过小型 MLP 解码器输出。
输出 – 解码器可被请求返回：
- 深度：对任意像素（通过查询对应光线）返回深度。
- 对应 / 光流：在两个时间戳之间（通过查询同一空间位置的两个时间）返回运动向量。
- 相机参数：使用特殊的 “相机查询” 聚合全局信息，输出相机内外参。
训练损失 – 模型在光度重建损失、深度监督（若可用）以及位姿一致性损失的组合下进行监督。由于查询是可微的，梯度能够端到端地回传至整个 Transformer。

结果与发现

定量提升：在 Dynamic Scene Flow (DSF) 基准上，D4RT 将端点误差降低了 12 %（相对前一最佳方法）。在 KITTI‑360 多视角深度任务上，绝对深度误差提升了 0.08 m。
速度：在 NVIDIA RTX 3090 上，对 10 秒（30 fps）视频的推理耗时约 0.6 s，而最接近的竞争对手需 >2 s。
内存占用：基于查询的解码器使 GPU 内存保持在 8 GB 以下，即使是 4K 分辨率视频，也能在单卡上训练。
泛化能力：在混合数据集（室内 + 室外）上训练的单一 D4RT 模型，可直接在未见场景上使用，无需微调，展示了对域迁移的鲁棒性。

实际意义

AR/VR 内容创作 – 开发者只需手持摄像机拍摄一段移动场景视频，即可瞬间获得完整的 4‑D 网格，用于沉浸式体验，无需昂贵的多摄像机阵列。
机器人与自动驾驶 – 单摄像头即可实时获取深度、运动和位姿信息，简化 SLAM 流程并提升动态环境中的障碍预测能力。
电影特效 – 查询接口让艺术家能够在任意帧提取精确的 3‑D 点，便于抠像、对象移除或虚拟摄像机插入，显著降低手工工作量。
云端大规模视频分析 – 由于 D4RT 轻量，能够批量处理海量视频库，提取场景动态信息用于索引、检索或安全监控。

局限性与未来工作

稀疏监督 – 模型仍依赖一定的真实深度或位姿数据进行训练；完全自监督学习仍是未解挑战。
极端运动模糊 – 极快运动会削弱光度损失，导致偶发的深度/光流伪影。
长期时间一致性 – 查询是独立的；在数秒尺度上保持平滑可能需要额外的时间正则化项。
未来方向：作者提出可融合学习到的光流先验、扩展查询语言以支持语义属性（如 “t=5 s 时汽车在哪里？”），以及扩展到多摄像机阵列以实现更丰富的重建。

作者

Chuhan Zhang
Guillaume Le Moing
Skanda Koppula
Ignacio Rocco
Liliane Momeni
Junyu Xie
Shuyang Sun
Rahul Sukthankar
Joëlle K Barral
Raia Hadsell
Zoubin Ghahramani
Andrew Zisserman
Junlin Zhang
Mehdi SM Sajjadi

论文信息

arXiv ID: 2512.08924v1
分类: cs.CV
发布日期: 2025 年 12 月 9 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

3D Gaussian Splatting（3DGS）的最新成功通过实现快速优化和实时渲染高质量辐射，重新塑造了新视角合成。

[Paper] V-RGBX：视频编辑对内在属性的精确控制

大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成

大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈，因为真实世界的数据获取成本高且 s...