[Paper] Any4D：统一前馈度量4D重建

发布: 1个月前 (2025年12月12日 GMT+8 02:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10935v1

概览

本文提出了 Any4D，一种基于 Transformer 的架构，能够直接从多帧视频中重建稠密、度量尺度的 4‑D（3‑D 几何 + 运动）场景。不同于大多数仅估计成对场景流或跟踪稀疏 3‑D 点的已有工作，Any4D 能够为任意数量的视角预测每像素深度和运动，并且可以混合使用多种传感器（RGB‑D、IMU、雷达）。该方法实现了快速、精确且灵活的流水线，弥合了研究级 4‑D 重建与真实世界机器人或 AR/VR 应用之间的差距。

主要贡献

统一的多视角 Transformer：一次前向传播即可输出 N 帧的稠密每像素深度和场景流。
模块化的自体/他体表示：深度与内参保留在每个相机的局部坐标系中，而外参与流在全局世界坐标系中表达，实现了异构传感器数据的无缝融合。
多模态支持：同一网络可直接消费 RGB、RGB‑D、IMU 位姿或雷达多普勒测量，无需架构改动。
显著的性能提升：相较于最先进的 4‑D 方法，重建误差降低 2–3×，推理速度提升最高可达 15×。
可扩展设计：支持任意数量的输入帧，适用于短程 AR 场景和长时段自动驾驶序列。

方法论

1. 输入编码

每个视角提供 每像素深度图（若无深度则提供原始 RGB）以及相机内参。
可选的传感器流（IMU 位姿、雷达多普勒）被投影到相同的每视角 token 空间。

2. 自体 → 他体融合

Token 首先在 自体空间（局部相机坐标）中处理，以保留高频几何细节。
轻量级 姿态感知 Transformer 将这些 token 提升到共享的 他体（世界）空间，在此进行全局运动（场景流）的推理。

3. 前馈预测

Transformer 输出每个视角的 稠密深度，以及将每个像素从源帧映射到每个目标帧的 场景流向量。
由于模型完全前馈，测试时无需迭代优化——仅一次网络前向传播。

4. 训练目标

监督信号结合 光度一致性、深度回归 与 流平滑 损失。
当有真实度量位姿可用时，额外的 位姿对齐损失 用于强制全局尺度一致性。

整体流水线可视化为：每视角编码器 → 共享 Transformer → 每视角解码器，全部在统一的 token 表示上运行，混合视觉与惯性/雷达线索。

结果与发现

数据集 / 模式	指标（例如 RMSE）	相较于前沿方法的加速
合成 RGB‑D（4 视角）	0.12 m (↓ 2.5×)	12× faster
真实世界驾驶（RGB + IMU）	0.18 m (↓ 3×)	15× faster
雷达增强夜间序列	0.22 m (↓ 2×)	10× faster

精度：Any4D 在各种传感器配置下始终将深度和流误差降低 2–3×。
效率：前馈设计消除了昂贵的迭代细化，在单块 RTX 3090 上对 4 视角输入实现约 30 fps 的实时性能。
鲁棒性：加入辅助模态（如雷达）进一步提升了低光或纹理贫乏场景的重建质量，验证了模块化表示的优势。

实际意义

机器人与自动驾驶：工程师可以实时获取度量尺度的 3‑D 地图和运动场，提升障碍规避、路径规划和 SLAM 的效果，无需繁重的后处理。
AR/VR 内容创作：手持设备（RGB‑D 或仅 RGB + IMU）即可实现实时稠密重建，使得在设备端生成沉浸式环境成为可能，降低对云端处理的依赖。
多传感器融合平台：同一模型可部署在拥有不同传感器套件的机器人上，简化软件栈，减少针对硬件配置的定制流水线需求。
边缘部署：由于推理仅为一次前向传播，Any4D 可针对边缘 AI 加速器进行优化，为低功耗、板载 4‑D 感知打开大门。

局限性与未来工作

缺乏度量传感器时的尺度歧义：纯 RGB 设置仍依赖学习到的尺度先验；当提供深度或 IMU 数据时，绝对度量精度会显著提升。
内存占用：同时处理大量高分辨率帧可能超出 GPU 内存上限，作者建议使用层次化 token 采样进行缓解。
动态物体：虽然场景流捕获运动，但高度非刚性变形（如布料）仍具挑战，可能需要专门的运动模型。
未来方向：扩展框架以支持流式视频（在线更新）、加入学习的不确定性估计，并探索与下游任务（如目标检测或控制）的更紧密集成。

作者

Jay Karhade
Nikhil Keetha
Yuchen Zhang
Tanisha Gupta
Akash Sharma
Sebastian Scherer
Deva Ramanan

论文信息

arXiv ID: 2512.10935v1
分类: cs.CV, cs.AI, cs.LG, cs.RO
发布日期: 2025 年 12 月 11 日
PDF: Download PDF

[Paper] Any4D：统一前馈度量4D重建

概览

主要贡献

方法论

1. 输入编码

2. 自体 → 他体融合

3. 前馈预测

4. 训练目标

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

概览

主要贡献

方法论

1. 输入编码

2. 自体 → 他体 融合

3. 前馈预测

4. 训练目标

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹 鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

2. 自体 → 他体融合

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估