[Paper] M^3：稠密匹配与多视角基础模型在单目 Gaussian Splatting SLAM 中的结合

发布: 3天前 (2026年3月18日 GMT+8 01:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.16844v1

概述

本文介绍了 M³，一种新颖的 SLAM 系统，它将密集匹配与多视角基础模型相结合，实现了实时的高质量单目 Gaussian‑splatting 重建。通过紧密耦合位姿估计与密集对应，M³ 推动了单摄像头流式 3D 重建的极限，提供了更精确的轨迹和更清晰的场景渲染。

Matching‑augmented foundation model – 在多视角视觉基础模型中添加专用的密集匹配头，提供适用于几何优化的亚像素对应关系。
Monocular Gaussian‑splatting SLAM – 将精炼的匹配结果整合到高斯点溅射表示中，实现快速的在线场景更新，同时保留高频细节。
Dynamic area suppression & cross‑inference alignment – 新颖技巧，可在动态或低纹理区域稳定跟踪，并在推理过程之间对齐内参。
State‑of‑the‑art performance – 在具有挑战性的 ScanNet++ 基准上，相比 VGGT‑SLAM 2.0 将 ATE RMSE 减少 64.3%，并比 ARTDECO 提升 2.11 dB PSNR。
Extensive real‑world validation – 在多样的室内外视频序列上进行评估，展示了在光照、运动速度和场景复杂度方面的鲁棒性。

Backbone foundation model – 从一个预训练的多视角 transformer 开始，该模型从单目视频流预测粗略的相机姿态和特征图。
Matching head – 一个轻量级卷积模块，接收 backbone 的特征图并产生连续帧之间的密集、像素级对应关系。这些匹配通过可微分相关层被细化到亚像素精度。
Pose refinement loop – 密集匹配喂给经典的 bundle‑adjustment 风格优化器，更新相机轨迹，以满足几何中心 SLAM 所需的精度。
Gaussian splatting representation – 场景被建模为一组 3D 高斯（位置、协方差、颜色、不透明度）。随着新帧到来，优化器更新已有高斯并生成新高斯，保持渲染管线实时。
Stability mechanisms
- Dynamic area suppression 在运动剧烈或纹理稀少的区域打掩码，以避免破坏匹配信号。
- Cross‑inference intrinsic alignment 强制前向和后向传播中的相机内参一致性，降低漂移。

所有组件在单个 GPU 上运行，使系统能够以接近实时的速度处理视频（≈15 fps 在 RTX 3080 上）。

Benchmark	Metric	M³	VGGT‑SLAM 2.0	ARTDECO
ScanNet++ (indoor)	Pose ATE RMSE (m)	0.032	0.089	–
ScanNet++	Reconstruction PSNR (dB)	28.7	–	26.59
Outdoor (KITTI‑raw)	Pose ATE RMSE (m)	0.058	0.162	–

AR/VR 内容创作 – 开发者现在可以仅使用单个手机摄像头捕获高保真 3D 资产，无需校准装置，从而加快流水线原型制作。
机器人导航 – 更紧密的姿态‑重建闭环在纹理贫乏或动态环境中提供更可靠的定位，适用于室内服务机器人或无人机。
游戏引擎集成 – 高斯点云渲染已在现代渲染器中得到支持（例如 Unity、Unreal）。M³ 的在线点云生成意味着开发者可以将实时的“数字孪生”直接流式传输到这些引擎中。
边缘部署 – 系统的 GPU 友好设计（无沉重的 3D 体素网格）使其能够在高端移动设备或嵌入式平台上进行设备端映射。