[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

发布: 16小时前 (2026年4月24日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.21926v1

Overview

论文 “Seeing Without Eyes: 4D Human‑Scene Understanding from Wearable IMUs” 展示了仅使用少量日常惯性传感器（例如耳塞、智能手表、手机），即可重建人物的完整 3‑D 动作 and 周围环境的粗略 3‑D 布局——完全不依赖任何相机帧。通过将大型语言模型（LLMs）重新用于时空推理引擎，作者表明 “vision‑free” 感知能够达到此前仅能通过视觉流水线实现的连贯性和稳定性水平。

关键贡献

IMU‑to‑4D 框架：一种新颖的流水线，将原始惯性测量单元（IMU）数据流转换为统一的 4‑D（3‑D 空间 + 时间）人体姿态和场景几何表示。
基于 LLM 的时空推理：将预训练的大语言模型适配用于解释非视觉传感器序列，将其视为一种“运动语言”。
在多模态数据集上的端到端训练：利用现有的动作捕捉和合成场景数据集，教会模型身体动力学与周围结构之间的关系。
基准水平的性能：在多个公开的人体‑场景基准上超越最先进的级联 IMU‑only 流水线，提供更平滑的轨迹和更合理的场景布局。
硬件无关设计：仅需在典型消费设备上放置三个低成本 IMU，即可实现大规模部署。

方法论

传感器收集 – 系统从少量可穿戴设备（例如左耳塞、右手腕、口袋手机）中摄取同步的三轴加速度计和陀螺仪数据流。
预处理 – 将原始信号进行窗口化、归一化，并嵌入为类似句子中单词的 token 序列。
LLM 编码‑解码器 – 对预训练的基于 Transformer 的语言模型（例如 LLaMA）进行微调，使其将标记化的 IMU 流映射到捕获身体运动学和环境约束的潜在表示。
4‑D 解码器 – 两个并行的头部对潜在代码进行解码：
- 人体姿态头 为每帧预测 SMPL‑X 参数，生成连续的 3‑D 骨架和网格。
- 场景头 预测体素网格或低分辨率的静态障碍物（墙壁、家具）网格，以最佳解释观察到的运动动力学。
时间一致性损失 – 在训练期间应用平滑正则化器和受物理启发的约束（例如脚与地面的接触），以确保随时间的真实运动。

整个管线在一次前向传播中完成，消除了传统视觉管线中需要的独立检测、跟踪和重建阶段。

Results & Findings

数据集	指标（姿态）	指标（场景）	定性说明
Human3.6M‑Scene（合成）	MPJPE ↓ 12.4 mm（‑18 % 相比基线）	IoU ↑ 0.31（↑ 22 %）	即使四肢被遮挡仍恢复房间布局
TotalCapture‑IMU	加速度误差 ↓ 9 %	场景轮廓对齐 ↑ 0.27	时间漂移几乎被消除
真实可穿戴设备（5 位参与者）	步态周期一致，抖动 < 5 mm	检测到墙壁/家具误差在 0.2 m 以内	可使用现成的耳塞和手机

关键要点

时间稳定性 明显高于先估计姿态再估计场景的级联方法。
该模型可以仅凭运动约束推断 场景几何（例如，突然停下暗示有墙壁）。
即使 传感器布置稀疏，系统也能恢复全身网格，视觉效果可与基于摄像头的重建相媲美。

Practical Implications

Privacy‑first AR/VR: 开发者可以构建无需摄像头即可跟踪用户全身动作的沉浸式体验，从而规避 GDPR 类的隐私顾虑。
Workplace safety & ergonomics: 可穿戴 IMU 能持续监测工人的姿势，并实时检测危险障碍物，将警报发送至安全仪表盘。
Robotics & human‑robot collaboration: 机器人仅凭来自周围人类的惯性数据即可预测动作并调整路径，降低在低光或杂乱环境中对视觉的依赖。
Energy‑efficient edge devices: 与视频采集相比，IMU 采样的功耗低几个数量级；所提出的模型可以在现代智能手机或配备现场推理加速器的专用微控制器上运行。
Scalable data collection: 大规模研究（例如人口层面的活动监测）变得可行，因为参与者只需佩戴日常设备，而无需专用摄像装置。

局限性与未来工作

粗糙的场景粒度 – 重建的环境仅限于大型静态结构；细节（例如桌面上的小物体）仍然无法捕捉。
传感器放置敏感性 – 当 IMU 组合与训练配置显著偏离（例如缺少手腕传感器）时，准确性会下降。
对高度动态场景的泛化能力 – 与移动物体的快速交互（例如接球）对当前的静态场景假设构成挑战。
未来方向 作者提出包括整合额外的低成本模态（磁力计、气压计），改进场景解码器以输出更高分辨率的网格，以及在海量未标记的 IMU 数据流上进行自监督预训练，以提升在各种可穿戴设备上的鲁棒性。

作者

Hao‑Yu Hsu
Tianhang Cheng
Jing Wen
Alexander G. Schwing
Shenlong Wang

论文信息

arXiv ID: 2604.21926v1
类别: cs.CV
出版日期: 2026年4月23日
PDF: Download PDF

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

Overview

关键贡献

方法论

Results & Findings

关键要点

Practical Implications

局限性与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] Vista4D：视频重新拍摄与4D点云

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] UniGenDet：统一的生成‑判别框架用于协同进化图像生成与生成图像检测