[Paper] 多视角 Foundation Models
发布: (2025年12月18日 GMT+8 02:58)
6 min read
原文: arXiv
Source: arXiv - 2512.15708v1
概述
本文提出了一种简洁而强大的方法,将任何单图像视觉基础模型(例如 DINO、SAM、CLIP)转化为 Multi‑View Foundation Model,该模型能够对同一 3D 场景中从不同视点拍摄的一组图像进行推理。通过添加轻量级的 3D‑aware 注意力模块,作者在无需先重建显式 3‑D 模型的情况下,实现跨视角特征的一致性。这大大简化了在多视角分割或表面法线估计等任务中复用已有预训练模型的过程。
关键贡献
- 通用转换管线:一种即插即用的方法,可将任何基于 Transformer 的视觉基础模型升级,以联合处理多视角。
- 3D 感知注意力层:引入中间注意力块,显式对齐跨图像对应 3D 点的特征。
- 无需显式 3D 重建:一致性直接在图像空间实现,规避了昂贵的体素/网格构建。
- 在两个下游任务上进行演示:
- 多视角表面法线估计。
- 多视角语义分割。
- 实证收益:相较于普通基础模型,特征匹配精度和下游任务性能均有显著提升。
方法论
- 从预训练的 transformer 基础模型开始(例如 DINO 的 ViT 编码器)。
- 在选定的 transformer 块后插入“3D 感知注意力”模块。
- 该模块接收来自每个视角的每像素 token 嵌入。
- 它利用估计的相机姿态(或学习得到的姿态嵌入)计算跨视角注意力,使表示同一 3D 点的 token 彼此关注。
- 注意力输出会加回原始 token,促使它们变得视角一致。
- 训练目标:
- 对比损失,使跨视角对应的 3D 点特征相互靠近,同时将不相关的点特征拉开。
- 可选的辅助损失(例如表面法线回归、分割掩码),用于下游任务。
- 推理:输入同一场景的一批图像;模型返回每张图像的特征图,这些特征图已在视角间对齐,可直接用于任何下游头部(例如法线估计器或分割解码器)。
整个流水线轻量级——仅增加少量注意力层——因此可以以最小的工程工作量嵌入现有流水线。
结果与发现
| 任务 | 基线(单视图 FM) | 多视图 FM(提出) | 相对提升 |
|---|---|---|---|
| 表面法线估计(RMSE) | 28.4° | 22.1° | ~22% 改进 |
| 多视图分割(mIoU) | 61.3% | 68.7% | ~12% 改进 |
| 特征匹配精度(AUC@10°) | 0.71 | 0.84 | +0.13 |
关键要点
- 新增的注意力层显著提升了学习嵌入的几何一致性。
- 依赖跨视图对应的下游任务(法线、分割)直接受益,常常缩小与显式构建 3‑D 模型的方法之间的差距。
- 该方法在多个主干模型(DINO、SAM、CLIP)上均表现良好,验证了其通用性。
实际意义
- 快速原型:开发者可以复用已有的预训练视觉模型来处理多视角问题,无需从头重新训练或构建完整的 3‑D 流程。
- 机器人与 AR/VR:相机帧之间的一致特征使得姿态跟踪、场景理解和对象操作在实时系统中更加可靠。
- 大规模映射:无人机或手持设备的采集工作流可以实时生成密集、对齐的特征图,简化后续的摄影测量或语义映射流水线。
- 成本效益的扩展:由于额外的层很小,内存和计算开销有限,使其能够在边缘 GPU 甚至移动加速器上运行。
- 现有 API 的插件:已经提供 DINO/CLIP 嵌入(例如通过云服务)的公司可以通过一个轻量包装器将其扩展到多视角场景,从而开启诸如多摄像头分割或跨视角搜索等新产品功能。
局限性与未来工作
- 对准确相机姿态的依赖:当前实现假设已知外参;姿态估计噪声会导致对齐效果下降。
- 对大量视图的可扩展性:注意力成本随图像数量呈二次增长,因此极大视图集合可能需要层次化或稀疏注意力技巧。
- 仅限于 transformer 主干:虽然作者在 DINO、SAM 和 CLIP 上展示了结果,但将该思路扩展到基于 CNN 的基础模型仍未探索。
- 作者提出的未来方向 包括与注意力模块联合学习姿态估计、为大批量视图探索稀疏注意力机制,以及将该框架应用于视频级任务,如 3‑D 目标检测或场景流估计。
作者
- Leo Segre
- Or Hirschorn
- Shai Avidan
论文信息
- arXiv ID: 2512.15708v1
- Categories: cs.CV
- Published: 2025年12月17日
- PDF: 下载 PDF