[Paper] 感受空间:自运动感知视频表示用于高效且精准的3D场景理解
Source: arXiv - 2603.17980v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。
概述
本文介绍了 Motion‑MLLM,一种将视频帧与惯性测量单元 (IMU) 的自运动数据融合的多模态大型语言模型。通过将视觉内容与真实世界的运动线索相结合,系统能够在推理 3‑D 场景的绝对尺度和空间关系时,降低传统点云或鸟瞰视图流水线的高计算成本。
关键贡献
- Egomotion‑aware representation: 将原始 IMU 信号(加速度、陀螺仪)与视频相结合,使模型具备对运动的物理感知。
- Cascaded motion‑visual keyframe filter: 同时利用运动和视觉相似性挑选 稀疏 的代表性帧,大幅降低模型需要处理的数据量。
- Asymmetric cross‑modal fusion: 将运动 token 视为“中介”,将 egomotion 上下文注入视觉嵌入,保持时间连续性且不会导致 token 数量激增。
- Cost‑effective performance: 在准确率上可与或优于最先进的视频仅基和显式 3D 方法相媲美,同时 1.4×–1.6× 更具成本效益(更少的 FLOPs,更低的延迟)。
- Broad evaluation suite: 在多个 3‑D 场景理解基准上展示了提升(例如深度估计、物体尺度推断、空间问答)。
方法论
-
Data Capture – 标准的 RGB 摄像头记录视频,同时附着在同一设备上的 IMU 实时流式传输 6‑DoF 运动数据(线性加速度 + 角速度)。
-
Keyframe Selection –
- Motion cue:从 IMU 读取值计算短期轨迹描述子;大幅变化表明可能的关键帧。
- Visual cue:从每帧提取轻量级 CNN 特征;视觉新颖度高也会标记为关键帧。
- 将两种线索以级联方式结合:先用运动信息剔除明显冗余,再用视觉相似度细化集合,得到紧凑的帧子集(约占原始帧的 10‑15 %)。
-
Tokenization – 将每个选中的帧转换为视觉 token(ViT 切片)。同时,将 IMU 流离散化为 motion tokens,用于编码速度、方向以及衍生的自运动向量。
-
Asymmetric Cross‑Modal Fusion –
- 将 motion tokens 输入浅层 Transformer,生成 motion context vector(运动上下文向量)。
- 在主 LLM 编码器之前,将该向量与视觉 token 进行拼接,充当“桥梁”,在不需要完整 3‑D 点云编码器的情况下注入绝对尺度和轨迹信息。
-
LLM Reasoning – 融合后的 token 序列由预训练的多模态 LLM(如 LLaVA、MiniGPT‑4)处理,能够回答空间查询、生成场景描述或预测深度/尺度。
整个流水线在单个 GPU 上端到端运行,由于仅处理少量关键帧,内存和计算开销保持在适度水平。
结果与发现
| 任务 | 基线(仅视频) | 基线(3‑D 点云) | Motion‑MLLM |
|---|---|---|---|
| 绝对尺度估计(m) | ±0.48 | ±0.31 | ±0.27 |
| 深度预测(RMSE) | 0.62 | 0.55 | 0.53 |
| 空间 QA 准确率 | 71.2 % | 73.8 % | 75.6 % |
| FLOPs(相对) | 1.0× | 1.3× | 0.71× |
- 准确性: Motion‑MLLM 在所有测试指标上均匹配或超越了最佳的 3‑D‑aware 模型。
- 效率: 通过处理约 12 % 的帧,系统将 FLOPs 降低约 30 %,并将 RTX 3080 上每个查询的推理延迟从约 250 ms 降至约 170 ms。
- 鲁棒性: 消融研究表明,去除 motion‑visual filter 会导致性能下降约 8 %,且仅使用 motion token(无视觉上下文)不足以进行细粒度推理,验证了两种模态的协同作用。
实际意义
- AR/VR 与机器人: 配备廉价 IMU(智能手机、无人机、可穿戴设备)的设备现在可以在无需昂贵 LiDAR 或深度传感器的情况下获得可靠的三维理解,从而实现更精确的虚拟对象放置或更安全的导航。
- 边缘部署: 关键帧过滤策略使得在边缘 GPU 甚至设备内置 NPU 上运行自运动感知的场景推理成为可能,为实时辅助应用打开了大门(例如,“测量此物体”或“寻找出口”)。
- 内容创作: 视频编辑和游戏开发者可以从原始素材自动生成场景尺度的元数据(相机路径、物体尺寸),从而简化 VFX 工作流。
- 多模态 LLM 集成: 非对称融合设计可以后装到现有的多模态 LLM 中,为其提供物理基础层,而无需重新训练整个视觉编码器。
局限性与未来工作
- 传感器质量依赖性: 噪声较大的 IMU 数据(在低成本设备中常见)会降低 motion token 的可靠性;作者建议使用 sensor‑fusion 或去噪前处理器来缓解此问题。
- 静态场景假设: 当前框架假设相机运动主导场景动态;大量移动的物体(例如人群)仍可能干扰尺度推断。
- 对户外环境的泛化能力: 基准测试主要集中在室内或受控环境;将其扩展到大尺度户外场景(如自动驾驶)需要处理 GPS 漂移和更长的轨迹。
- 未来方向: 作者计划探索学习得到的 motion token 嵌入(取代手工离散化),融合音频线索以获得更丰富的上下文,并在端侧硬件加速器上进行测试。
作者
- Shuyao Shi
- Kang G. Shin
论文信息
- arXiv ID: 2603.17980v1
- 分类: cs.CV
- 出版时间: 2026年3月18日
- PDF: 下载 PDF