[Paper] Any4D:统一前馈度量4D重建
发布: (2025年12月12日 GMT+8 02:57)
7 min read
原文: arXiv
Source: arXiv - 2512.10935v1
概览
本文提出了 Any4D,一种基于 Transformer 的架构,能够直接从多帧视频中重建稠密、度量尺度的 4‑D(3‑D 几何 + 运动)场景。不同于大多数仅估计成对场景流或跟踪稀疏 3‑D 点的已有工作,Any4D 能够为 任意 数量的视角预测每像素深度和运动,并且可以混合使用多种传感器(RGB‑D、IMU、雷达)。该方法实现了快速、精确且灵活的流水线,弥合了研究级 4‑D 重建与真实世界机器人或 AR/VR 应用之间的差距。
主要贡献
- 统一的多视角 Transformer:一次前向传播即可输出 N 帧的稠密每像素深度和场景流。
- 模块化的自体/他体表示:深度与内参保留在每个相机的局部坐标系中,而外参与流在全局世界坐标系中表达,实现了异构传感器数据的无缝融合。
- 多模态支持:同一网络可直接消费 RGB、RGB‑D、IMU 位姿或雷达多普勒测量,无需架构改动。
- 显著的性能提升:相较于最先进的 4‑D 方法,重建误差降低 2–3×,推理速度提升最高可达 15×。
- 可扩展设计:支持任意数量的输入帧,适用于短程 AR 场景和长时段自动驾驶序列。
方法论
1. 输入编码
- 每个视角提供 每像素深度图(若无深度则提供原始 RGB)以及相机内参。
- 可选的传感器流(IMU 位姿、雷达多普勒)被投影到相同的每视角 token 空间。
2. 自体 → 他体 融合
- Token 首先在 自体空间(局部相机坐标)中处理,以保留高频几何细节。
- 轻量级 姿态感知 Transformer 将这些 token 提升到共享的 他体(世界)空间,在此进行全局运动(场景流)的推理。
3. 前馈预测
- Transformer 输出每个视角的 稠密深度,以及将每个像素从源帧映射到每个目标帧的 场景流向量。
- 由于模型完全前馈,测试时无需迭代优化——仅一次网络前向传播。
4. 训练目标
- 监督信号结合 光度一致性、深度回归 与 流平滑 损失。
- 当有真实度量位姿可用时,额外的 位姿对齐损失 用于强制全局尺度一致性。
整体流水线可视化为:每视角编码器 → 共享 Transformer → 每视角解码器,全部在统一的 token 表示上运行,混合视觉与惯性/雷达线索。
结果与发现
| 数据集 / 模式 | 指标(例如 RMSE) | 相较于前沿方法的加速 |
|---|---|---|
| 合成 RGB‑D(4 视角) | 0.12 m (↓ 2.5×) | 12× faster |
| 真实世界驾驶(RGB + IMU) | 0.18 m (↓ 3×) | 15× faster |
| 雷达增强夜间序列 | 0.22 m (↓ 2×) | 10× faster |
- 精度:Any4D 在各种传感器配置下始终将深度和流误差降低 2–3×。
- 效率:前馈设计消除了昂贵的迭代细化,在单块 RTX 3090 上对 4 视角输入实现约 30 fps 的实时性能。
- 鲁棒性:加入辅助模态(如雷达)进一步提升了低光或纹理贫乏场景的重建质量,验证了模块化表示的优势。
实际意义
- 机器人与自动驾驶:工程师可以实时获取度量尺度的 3‑D 地图和运动场,提升障碍规避、路径规划和 SLAM 的效果,无需繁重的后处理。
- AR/VR 内容创作:手持设备(RGB‑D 或仅 RGB + IMU)即可实现实时稠密重建,使得在设备端生成沉浸式环境成为可能,降低对云端处理的依赖。
- 多传感器融合平台:同一模型可部署在拥有不同传感器套件的机器人上,简化软件栈,减少针对硬件配置的定制流水线需求。
- 边缘部署:由于推理仅为一次前向传播,Any4D 可针对边缘 AI 加速器进行优化,为低功耗、板载 4‑D 感知打开大门。
局限性与未来工作
- 缺乏度量传感器时的尺度歧义:纯 RGB 设置仍依赖学习到的尺度先验;当提供深度或 IMU 数据时,绝对度量精度会显著提升。
- 内存占用:同时处理大量高分辨率帧可能超出 GPU 内存上限,作者建议使用层次化 token 采样进行缓解。
- 动态物体:虽然场景流捕获运动,但高度非刚性变形(如布料)仍具挑战,可能需要专门的运动模型。
- 未来方向:扩展框架以支持流式视频(在线更新)、加入学习的不确定性估计,并探索与下游任务(如目标检测或控制)的更紧密集成。
作者
- Jay Karhade
- Nikhil Keetha
- Yuchen Zhang
- Tanisha Gupta
- Akash Sharma
- Sebastian Scherer
- Deva Ramanan
论文信息
- arXiv ID: 2512.10935v1
- 分类: cs.CV, cs.AI, cs.LG, cs.RO
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF