[论文] SimpliHuMoN: 简化人体动作预测

发布: 1天前 (2026年3月5日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.04399v1

请提供您希望翻译的具体文本内容，我将按照要求进行翻译。

概览

论文 “SimpliHuMoN: Simplifying Human Motion Prediction” 提出了一种单一的、基于 transformer‑based 的架构，能够同时预测 human poses、trajectories，或两者兼顾。通过用一个简洁的模型取代一堆 task‑specific 网络，作者在多个广泛使用的 benchmarks 上取得了新的 state‑of‑the‑art 结果，展示了在该领域简洁性可以胜过复杂性。

关键贡献

统一的Transformer模型 – 一个端到端网络，能够处理仅姿态、仅轨迹以及组合运动预测，无需任何架构调整。
用于空间和时间建模的自注意力 – 堆叠的自注意力层同时捕获帧内关节级依赖和帧间时间动态。
最先进的性能 – 在Human3.6M、AMASS、ETH‑UCY和3DPW上创下新纪录，超越各子任务的专门基线。
简洁高效 – 与以往的多模块系统相比，超参数和训练流程更少，便于复现和扩展。
广泛的实证验证 – 消融研究和跨数据集实验展示了模型的鲁棒性和泛化能力。

方法论

SimpliHuMoN 的核心是一个 标准 Transformer 编码器，由若干相同的自注意力块组成：

输入表示 – 每个时间步被编码为关节坐标的展平向量（用于姿态）和/或根关节的 2‑D/3‑D 位置（用于轨迹）。位置编码注入时间顺序。
空间自注意力 – 在单帧内部，注意力使模型学习一个关节的运动如何影响另一个关节（例如，肘部 ↔ 手腕）。
时间自注意力 – 跨帧的注意力捕捉长程依赖，如腿部摆动对未来手臂运动的影响。
堆叠层 – 多个注意力层加深感受野，使网络能够建模短期动态和长期意图。
预测头 – 轻量线性投影将最终的 Transformer 嵌入映射回所需的输出格式（姿态、轨迹或两者兼有）。

训练使用对预测的关节/位置坐标的 均方误差损失，可选地结合速度正则化以鼓励平滑。无需任务特定的损失加权或辅助网络。

结果与发现

数据集	任务	指标（越低越好）	SimpliHuMoN	Prior SOTA
Human3.6M	姿态 (MPJPE)	27.4 mm	27.4	30.1 mm
AMASS	姿态 (MPJPE)	28.9 mm	28.9	31.5 mm
ETH‑UCY	轨迹 (ADE)	0.31 m	0.31	0.36 m
3DPW	综合	0.45 m (3D)	0.45	0.51 m

该模型平均比专门的基线提升 5‑10 %。
消融实验表明，去除空间注意力或时间注意力都会导致性能下降约 8 %，验证了两者的重要性。
每个 epoch 的训练时间与最有效的已有方法相当，甚至略低，因为该架构避免了多个子网络。

Practical Implications

游戏开发与动画 – 工作室可以集成单一模型，从稀疏输入（例如仅脚部位置）生成逼真的角色动作，从而降低流水线复杂度。
机器人技术与人机交互 – 同时预测人行走路径和四肢运动，使机器人规划更安全、更具前瞻性。
AR/VR 头像 – 通过轻量级 Transformer，利用头戴传感器实现实时姿态和轨迹预测，使头像逼真度提升且无需大量计算。
监控与自动驾驶 – 统一的运动预测可直接输入意图预测模块，简化数据处理，并提升对行人和骑行者预测的一致性。
研究与原型制作 – 开源友好的设计降低了多模态运动数据实验的门槛，鼓励跨任务创新。

限制与未来工作

数据需求 – 与大多数 transformer 类似，SimpliHuMoN 受益于大规模、多样化的动作捕捉数据集；在样本有限的细分动作上，性能可能下降。
实时约束 – 虽然高效，但模型仍需 GPU 加速才能实现低延迟推理，这在边缘设备上可能成为瓶颈。
物理合理性 – 损失函数仅基于几何；加入基于物理的约束（例如接触力）可能进一步提升真实感。
多代理场景 – 将架构扩展至联合预测多个代理之间的交互仍是一个未解决的挑战。

作者建议探索轻量级注意力变体、融合生物力学先验，并将规模扩展到协作动作数据集，作为后续工作。

作者

Aadya Agrawal
Alexander Schwing

论文信息

arXiv ID: 2603.04399v1
类别: cs.CV, cs.LG
发表时间: 2026年3月4日
PDF: 下载 PDF

[论文] SimpliHuMoN: 简化人体动作预测

概览

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] ZipMap：线性时间有状态3D重建与测试时训练

[Paper] RANGER: 稀疏门控混合专家与自适应检索再排序用于病理报告生成

[Paper] 如何用刀剥离：将细粒度操作与人类偏好对齐

Tether：自主功能性玩耍与Correspondence-Driven Trajectory Warping