[Paper] 感受空间：自运动感知视频表示用于高效且精准的3D场景理解

发布: 1天前 (2026年3月19日 GMT+8 01:42)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.17980v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 Motion‑MLLM，一种将视频帧与惯性测量单元 (IMU) 的自运动数据融合的多模态大型语言模型。通过将视觉内容与真实世界的运动线索相结合，系统能够在推理 3‑D 场景的绝对尺度和空间关系时，降低传统点云或鸟瞰视图流水线的高计算成本。

Egomotion‑aware representation: 将原始 IMU 信号（加速度、陀螺仪）与视频相结合，使模型具备对运动的物理感知。
Cascaded motion‑visual keyframe filter: 同时利用运动和视觉相似性挑选稀疏的代表性帧，大幅降低模型需要处理的数据量。
Asymmetric cross‑modal fusion: 将运动 token 视为“中介”，将 egomotion 上下文注入视觉嵌入，保持时间连续性且不会导致 token 数量激增。
Cost‑effective performance: 在准确率上可与或优于最先进的视频仅基和显式 3D 方法相媲美，同时 1.4×–1.6× 更具成本效益（更少的 FLOPs，更低的延迟）。
Broad evaluation suite: 在多个 3‑D 场景理解基准上展示了提升（例如深度估计、物体尺度推断、空间问答）。

Data Capture – 标准的 RGB 摄像头记录视频，同时附着在同一设备上的 IMU 实时流式传输 6‑DoF 运动数据（线性加速度 + 角速度）。
Keyframe Selection –
- Motion cue：从 IMU 读取值计算短期轨迹描述子；大幅变化表明可能的关键帧。
- Visual cue：从每帧提取轻量级 CNN 特征；视觉新颖度高也会标记为关键帧。
- 将两种线索以级联方式结合：先用运动信息剔除明显冗余，再用视觉相似度细化集合，得到紧凑的帧子集（约占原始帧的 10‑15 %）。
Tokenization – 将每个选中的帧转换为视觉 token（ViT 切片）。同时，将 IMU 流离散化为 motion tokens，用于编码速度、方向以及衍生的自运动向量。
Asymmetric Cross‑Modal Fusion –
- 将 motion tokens 输入浅层 Transformer，生成 motion context vector（运动上下文向量）。
- 在主 LLM 编码器之前，将该向量与视觉 token 进行拼接，充当“桥梁”，在不需要完整 3‑D 点云编码器的情况下注入绝对尺度和轨迹信息。
LLM Reasoning – 融合后的 token 序列由预训练的多模态 LLM（如 LLaVA、MiniGPT‑4）处理，能够回答空间查询、生成场景描述或预测深度/尺度。

整个流水线在单个 GPU 上端到端运行，由于仅处理少量关键帧，内存和计算开销保持在适度水平。

任务	基线（仅视频）	基线（3‑D 点云）	Motion‑MLLM
绝对尺度估计（m）	±0.48	±0.31	±0.27
深度预测（RMSE）	0.62	0.55	0.53
空间 QA 准确率	71.2 %	73.8 %	75.6 %
FLOPs（相对）	1.0×	1.3×	0.71×

准确性： Motion‑MLLM 在所有测试指标上均匹配或超越了最佳的 3‑D‑aware 模型。
效率： 通过处理约 12 % 的帧，系统将 FLOPs 降低约 30 %，并将 RTX 3080 上每个查询的推理延迟从约 250 ms 降至约 170 ms。
鲁棒性： 消融研究表明，去除 motion‑visual filter 会导致性能下降约 8 %，且仅使用 motion token（无视觉上下文）不足以进行细粒度推理，验证了两种模态的协同作用。

AR/VR 与机器人: 配备廉价 IMU（智能手机、无人机、可穿戴设备）的设备现在可以在无需昂贵 LiDAR 或深度传感器的情况下获得可靠的三维理解，从而实现更精确的虚拟对象放置或更安全的导航。
边缘部署: 关键帧过滤策略使得在边缘 GPU 甚至设备内置 NPU 上运行自运动感知的场景推理成为可能，为实时辅助应用打开了大门（例如，“测量此物体”或“寻找出口”）。
内容创作: 视频编辑和游戏开发者可以从原始素材自动生成场景尺度的元数据（相机路径、物体尺寸），从而简化 VFX 工作流。
多模态 LLM 集成: 非对称融合设计可以后装到现有的多模态 LLM 中，为其提供物理基础层，而无需重新训练整个视觉编码器。

传感器质量依赖性： 噪声较大的 IMU 数据（在低成本设备中常见）会降低 motion token 的可靠性；作者建议使用 sensor‑fusion 或去噪前处理器来缓解此问题。
静态场景假设： 当前框架假设相机运动主导场景动态；大量移动的物体（例如人群）仍可能干扰尺度推断。
对户外环境的泛化能力： 基准测试主要集中在室内或受控环境；将其扩展到大尺度户外场景（如自动驾驶）需要处理 GPS 漂移和更长的轨迹。
未来方向： 作者计划探索学习得到的 motion token 嵌入（取代手工离散化），融合音频线索以获得更丰富的上下文，并在端侧硬件加速器上进行测试。