[Paper] Any4D:统一前馈度量4D重建

发布: (2025年12月12日 GMT+8 02:57)
7 min read
原文: arXiv

Source: arXiv - 2512.10935v1

概览

本文提出了 Any4D,一种基于 Transformer 的架构,能够直接从多帧视频中重建稠密、度量尺度的 4‑D(3‑D 几何 + 运动)场景。不同于大多数仅估计成对场景流或跟踪稀疏 3‑D 点的已有工作,Any4D 能够为 任意 数量的视角预测每像素深度和运动,并且可以混合使用多种传感器(RGB‑D、IMU、雷达)。该方法实现了快速、精确且灵活的流水线,弥合了研究级 4‑D 重建与真实世界机器人或 AR/VR 应用之间的差距。

主要贡献

  • 统一的多视角 Transformer:一次前向传播即可输出 N 帧的稠密每像素深度和场景流。
  • 模块化的自体/他体表示:深度与内参保留在每个相机的局部坐标系中,而外参与流在全局世界坐标系中表达,实现了异构传感器数据的无缝融合。
  • 多模态支持:同一网络可直接消费 RGB、RGB‑D、IMU 位姿或雷达多普勒测量,无需架构改动。
  • 显著的性能提升:相较于最先进的 4‑D 方法,重建误差降低 2–3×,推理速度提升最高可达 15×。
  • 可扩展设计:支持任意数量的输入帧,适用于短程 AR 场景和长时段自动驾驶序列。

方法论

1. 输入编码

  • 每个视角提供 每像素深度图(若无深度则提供原始 RGB)以及相机内参。
  • 可选的传感器流(IMU 位姿、雷达多普勒)被投影到相同的每视角 token 空间。

2. 自体 → 他体 融合

  • Token 首先在 自体空间(局部相机坐标)中处理,以保留高频几何细节。
  • 轻量级 姿态感知 Transformer 将这些 token 提升到共享的 他体(世界)空间,在此进行全局运动(场景流)的推理。

3. 前馈预测

  • Transformer 输出每个视角的 稠密深度,以及将每个像素从源帧映射到每个目标帧的 场景流向量
  • 由于模型完全前馈,测试时无需迭代优化——仅一次网络前向传播。

4. 训练目标

  • 监督信号结合 光度一致性深度回归流平滑 损失。
  • 当有真实度量位姿可用时,额外的 位姿对齐损失 用于强制全局尺度一致性。

整体流水线可视化为:每视角编码器 → 共享 Transformer → 每视角解码器,全部在统一的 token 表示上运行,混合视觉与惯性/雷达线索。

结果与发现

数据集 / 模式指标(例如 RMSE)相较于前沿方法的加速
合成 RGB‑D(4 视角)0.12 m (↓ 2.5×)12× faster
真实世界驾驶(RGB + IMU)0.18 m (↓ 3×)15× faster
雷达增强夜间序列0.22 m (↓ 2×)10× faster
  • 精度:Any4D 在各种传感器配置下始终将深度和流误差降低 2–3×。
  • 效率:前馈设计消除了昂贵的迭代细化,在单块 RTX 3090 上对 4 视角输入实现约 30 fps 的实时性能。
  • 鲁棒性:加入辅助模态(如雷达)进一步提升了低光或纹理贫乏场景的重建质量,验证了模块化表示的优势。

实际意义

  • 机器人与自动驾驶:工程师可以实时获取度量尺度的 3‑D 地图和运动场,提升障碍规避、路径规划和 SLAM 的效果,无需繁重的后处理。
  • AR/VR 内容创作:手持设备(RGB‑D 或仅 RGB + IMU)即可实现实时稠密重建,使得在设备端生成沉浸式环境成为可能,降低对云端处理的依赖。
  • 多传感器融合平台:同一模型可部署在拥有不同传感器套件的机器人上,简化软件栈,减少针对硬件配置的定制流水线需求。
  • 边缘部署:由于推理仅为一次前向传播,Any4D 可针对边缘 AI 加速器进行优化,为低功耗、板载 4‑D 感知打开大门。

局限性与未来工作

  • 缺乏度量传感器时的尺度歧义:纯 RGB 设置仍依赖学习到的尺度先验;当提供深度或 IMU 数据时,绝对度量精度会显著提升。
  • 内存占用:同时处理大量高分辨率帧可能超出 GPU 内存上限,作者建议使用层次化 token 采样进行缓解。
  • 动态物体:虽然场景流捕获运动,但高度非刚性变形(如布料)仍具挑战,可能需要专门的运动模型。
  • 未来方向:扩展框架以支持流式视频(在线更新)、加入学习的不确定性估计,并探索与下游任务(如目标检测或控制)的更紧密集成。

作者

  • Jay Karhade
  • Nikhil Keetha
  • Yuchen Zhang
  • Tanisha Gupta
  • Akash Sharma
  • Sebastian Scherer
  • Deva Ramanan

论文信息

  • arXiv ID: 2512.10935v1
  • 分类: cs.CV, cs.AI, cs.LG, cs.RO
  • 发布日期: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »