[Paper] 感受空间:自运动感知视频表示用于高效且精准的3D场景理解

发布: (2026年3月19日 GMT+8 01:42)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.17980v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 Motion‑MLLM,一种将视频帧与惯性测量单元 (IMU) 的自运动数据融合的多模态大型语言模型。通过将视觉内容与真实世界的运动线索相结合,系统能够在推理 3‑D 场景的绝对尺度和空间关系时,降低传统点云或鸟瞰视图流水线的高计算成本。

关键贡献

  • Egomotion‑aware representation: 将原始 IMU 信号(加速度、陀螺仪)与视频相结合,使模型具备对运动的物理感知。
  • Cascaded motion‑visual keyframe filter: 同时利用运动和视觉相似性挑选 稀疏 的代表性帧,大幅降低模型需要处理的数据量。
  • Asymmetric cross‑modal fusion: 将运动 token 视为“中介”,将 egomotion 上下文注入视觉嵌入,保持时间连续性且不会导致 token 数量激增。
  • Cost‑effective performance: 在准确率上可与或优于最先进的视频仅基和显式 3D 方法相媲美,同时 1.4×–1.6× 更具成本效益(更少的 FLOPs,更低的延迟)。
  • Broad evaluation suite: 在多个 3‑D 场景理解基准上展示了提升(例如深度估计、物体尺度推断、空间问答)。

方法论

  1. Data Capture – 标准的 RGB 摄像头记录视频,同时附着在同一设备上的 IMU 实时流式传输 6‑DoF 运动数据(线性加速度 + 角速度)。

  2. Keyframe Selection

    • Motion cue:从 IMU 读取值计算短期轨迹描述子;大幅变化表明可能的关键帧。
    • Visual cue:从每帧提取轻量级 CNN 特征;视觉新颖度高也会标记为关键帧。
    • 将两种线索以级联方式结合:先用运动信息剔除明显冗余,再用视觉相似度细化集合,得到紧凑的帧子集(约占原始帧的 10‑15 %)。
  3. Tokenization – 将每个选中的帧转换为视觉 token(ViT 切片)。同时,将 IMU 流离散化为 motion tokens,用于编码速度、方向以及衍生的自运动向量。

  4. Asymmetric Cross‑Modal Fusion

    • 将 motion tokens 输入浅层 Transformer,生成 motion context vector(运动上下文向量)。
    • 在主 LLM 编码器之前,将该向量与视觉 token 进行拼接,充当“桥梁”,在不需要完整 3‑D 点云编码器的情况下注入绝对尺度和轨迹信息。
  5. LLM Reasoning – 融合后的 token 序列由预训练的多模态 LLM(如 LLaVA、MiniGPT‑4)处理,能够回答空间查询、生成场景描述或预测深度/尺度。

整个流水线在单个 GPU 上端到端运行,由于仅处理少量关键帧,内存和计算开销保持在适度水平。

结果与发现

任务基线(仅视频)基线(3‑D 点云)Motion‑MLLM
绝对尺度估计(m)±0.48±0.31±0.27
深度预测(RMSE)0.620.550.53
空间 QA 准确率71.2 %73.8 %75.6 %
FLOPs(相对)1.0×1.3×0.71×
  • 准确性: Motion‑MLLM 在所有测试指标上均匹配或超越了最佳的 3‑D‑aware 模型。
  • 效率: 通过处理约 12 % 的帧,系统将 FLOPs 降低约 30 %,并将 RTX 3080 上每个查询的推理延迟从约 250 ms 降至约 170 ms。
  • 鲁棒性: 消融研究表明,去除 motion‑visual filter 会导致性能下降约 8 %,且仅使用 motion token(无视觉上下文)不足以进行细粒度推理,验证了两种模态的协同作用。

实际意义

  • AR/VR 与机器人: 配备廉价 IMU(智能手机、无人机、可穿戴设备)的设备现在可以在无需昂贵 LiDAR 或深度传感器的情况下获得可靠的三维理解,从而实现更精确的虚拟对象放置或更安全的导航。
  • 边缘部署: 关键帧过滤策略使得在边缘 GPU 甚至设备内置 NPU 上运行自运动感知的场景推理成为可能,为实时辅助应用打开了大门(例如,“测量此物体”或“寻找出口”)。
  • 内容创作: 视频编辑和游戏开发者可以从原始素材自动生成场景尺度的元数据(相机路径、物体尺寸),从而简化 VFX 工作流。
  • 多模态 LLM 集成: 非对称融合设计可以后装到现有的多模态 LLM 中,为其提供物理基础层,而无需重新训练整个视觉编码器。

局限性与未来工作

  • 传感器质量依赖性: 噪声较大的 IMU 数据(在低成本设备中常见)会降低 motion token 的可靠性;作者建议使用 sensor‑fusion 或去噪前处理器来缓解此问题。
  • 静态场景假设: 当前框架假设相机运动主导场景动态;大量移动的物体(例如人群)仍可能干扰尺度推断。
  • 对户外环境的泛化能力: 基准测试主要集中在室内或受控环境;将其扩展到大尺度户外场景(如自动驾驶)需要处理 GPS 漂移和更长的轨迹。
  • 未来方向: 作者计划探索学习得到的 motion token 嵌入(取代手工离散化),融合音频线索以获得更丰富的上下文,并在端侧硬件加速器上进行测试。

作者

  • Shuyao Shi
  • Kang G. Shin

论文信息

  • arXiv ID: 2603.17980v1
  • 分类: cs.CV
  • 出版时间: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »