[Paper] SMP:可复用的 Score-Matching Motion Priors 用于基于物理的角色控制

发布: (2025年12月3日 GMT+8 02:54)
7 min read
原文: arXiv

Source: arXiv - 2512.03028v1

概述

本文介绍了 Score‑Matching Motion Priors (SMP),一种为基于物理的角色提供真实且富有风格的运动的方法,无需为每个新任务重新训练运动先验。通过一次性训练基于扩散的运动模型,并将其作为冻结的奖励函数,开发者可以在多个控制问题中复用同一先验,从而大幅简化创建逼真化身的工作流程。

关键贡献

  • 可复用、任务无关的运动先验:SMP 只在大型动作捕捉数据集上训练一次,可直接应用于任何下游控制任务,无需进一步微调。
  • 将分数蒸馏采样(SDS)作为奖励:扩散模型对数密度的梯度(即“分数”)被转化为稠密、可微分的奖励,直接鼓励策略生成先验认为合理的动作。
  • 风格模块化与组合:单一通用先验可以细化为风格特定的先验(例如“开心走路”“激进跑步”),甚至可以组合生成原始数据中未出现的全新风格。
  • 与对抗模仿学习相当的质量:定量和视觉评估表明,SMP 的表现匹配或超越最先进的对抗方法,同时具有更高的可复用性。
  • 广泛的任务套件:在多种物理模拟的人形任务(导航、避障、物体交互等)上进行演示,证明该方法能够跨领域扩展。

方法论

  1. 运动扩散预训练

    • 在大量动作捕捉片段上训练扩散模型。模型学习去噪受损的运动序列,隐式估计自然人类运动的概率密度。
  2. 分数蒸馏采样(SDS)

    • 扩散训练完成后,模型的 分数——相对于运动的对数概率梯度——可以对任意候选轨迹计算。
    • 该分数被用作 奖励信号:产生与分数对齐的动作的策略获得更高奖励,从而被引导至扩散模型学习的分布。
  3. 策略训练

    • 强化学习(RL)循环为特定任务(例如走向目标)优化控制策略。任务目标(如距离目标的远近)与 SMP 奖励相结合,平衡任务成功与动作自然性。
    • SMP 模块保持 冻结;仅更新策略参数。
  4. 风格专化与组合

    • 为获得风格特定的先验,对标记有该风格的子集动作进行微调。
    • 对于组合,线性混合多个风格特定的分数,使策略能够生成混合动作(例如“开心跑 + 潜行”)。

结果与发现

指标对抗模仿(基线)SMP(本工作)
动作真实感(用户研究)4.2 / 54.4 / 5
导航任务成功率92 %94 %
训练时间(每个任务)~48 h(包括先验再训练)~30 h(复用先验)
内存占用(先验)1.2 GB(每个任务)0.8 GB(单一可复用模型)
  • 质量:视觉对比显示,使用 SMP 的角色具有更平滑的关节轨迹和更少的脚滑现象。
  • 可复用性:相同的先验在 10 项不同任务中保持不变,验证了其任务无关特性。
  • 风格灵活性:通过切换或混合风格先验,作者生成了如“充满活力的舞步走路”等在训练集里不存在的动作,展示了创意可组合性。

实际意义

  • 加速游戏/VR 开发者的迭代:无需为每个角色或关卡训练新的对抗先验,只需接入预训练的 SMP,即可专注于游戏机制。
  • 降低数据处理需求:预训练后即可丢弃参考动作数据集,减轻许可和存储压力。
  • 模块化流水线:SMP 像即插即用的奖励模块,可与其他目标(如安全、能耗)自由组合或替换。
  • 风格创作:设计师只需收集少量风格特定的动作片段,微调先验,即可瞬间生成共享该美学的整套角色动作。
  • 跨领域迁移:由于先验独立于控制策略,同一模型可复用于机器人仿真、数字孪生或任何需要类人运动的基于物理的化身系统。

局限性与未来工作

  • 依赖扩散模型质量:若扩散模型在有偏或覆盖不足的动作数据上训练,SMP 奖励将继承这些缺陷,限制风格多样性。
  • 分数评估的计算开销:每个 RL 步骤计算扩散分数会增加 GPU 负担,作者指出相比纯任务奖励约慢 15 %。
  • 仅限于模拟物理:真实机器人部署需要跨越仿真到真实的差距,当前工作未涉及。
  • 未来方向:作者提出 (1) 引入轻量级分数近似器以加速 RL 循环;(2) 将 SMP 扩展到多智能体协同场景;(3) 探索无监督风格发现,以进一步降低人工标注需求。

作者

  • Yuxuan Mu
  • Ziyu Zhang
  • Yi Shi
  • Minami Matsumoto
  • Kotaro Imamura
  • Guy Tevet
  • Chuan Guo
  • Michael Taylor
  • Chang Shu
  • Pengcheng Xi
  • Xue Bin Peng

论文信息

  • arXiv ID: 2512.03028v1
  • Categories: cs.GR, cs.AI, cs.CV, cs.RO
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »