[Paper] SMP:可复用的 Score-Matching Motion Priors 用于基于物理的角色控制
发布: (2025年12月3日 GMT+8 02:54)
7 min read
原文: arXiv
Source: arXiv - 2512.03028v1
概述
本文介绍了 Score‑Matching Motion Priors (SMP),一种为基于物理的角色提供真实且富有风格的运动的方法,无需为每个新任务重新训练运动先验。通过一次性训练基于扩散的运动模型,并将其作为冻结的奖励函数,开发者可以在多个控制问题中复用同一先验,从而大幅简化创建逼真化身的工作流程。
关键贡献
- 可复用、任务无关的运动先验:SMP 只在大型动作捕捉数据集上训练一次,可直接应用于任何下游控制任务,无需进一步微调。
- 将分数蒸馏采样(SDS)作为奖励:扩散模型对数密度的梯度(即“分数”)被转化为稠密、可微分的奖励,直接鼓励策略生成先验认为合理的动作。
- 风格模块化与组合:单一通用先验可以细化为风格特定的先验(例如“开心走路”“激进跑步”),甚至可以组合生成原始数据中未出现的全新风格。
- 与对抗模仿学习相当的质量:定量和视觉评估表明,SMP 的表现匹配或超越最先进的对抗方法,同时具有更高的可复用性。
- 广泛的任务套件:在多种物理模拟的人形任务(导航、避障、物体交互等)上进行演示,证明该方法能够跨领域扩展。
方法论
-
运动扩散预训练
- 在大量动作捕捉片段上训练扩散模型。模型学习去噪受损的运动序列,隐式估计自然人类运动的概率密度。
-
分数蒸馏采样(SDS)
- 扩散训练完成后,模型的 分数——相对于运动的对数概率梯度——可以对任意候选轨迹计算。
- 该分数被用作 奖励信号:产生与分数对齐的动作的策略获得更高奖励,从而被引导至扩散模型学习的分布。
-
策略训练
- 强化学习(RL)循环为特定任务(例如走向目标)优化控制策略。任务目标(如距离目标的远近)与 SMP 奖励相结合,平衡任务成功与动作自然性。
- SMP 模块保持 冻结;仅更新策略参数。
-
风格专化与组合
- 为获得风格特定的先验,对标记有该风格的子集动作进行微调。
- 对于组合,线性混合多个风格特定的分数,使策略能够生成混合动作(例如“开心跑 + 潜行”)。
结果与发现
| 指标 | 对抗模仿(基线) | SMP(本工作) |
|---|---|---|
| 动作真实感(用户研究) | 4.2 / 5 | 4.4 / 5 |
| 导航任务成功率 | 92 % | 94 % |
| 训练时间(每个任务) | ~48 h(包括先验再训练) | ~30 h(复用先验) |
| 内存占用(先验) | 1.2 GB(每个任务) | 0.8 GB(单一可复用模型) |
- 质量:视觉对比显示,使用 SMP 的角色具有更平滑的关节轨迹和更少的脚滑现象。
- 可复用性:相同的先验在 10 项不同任务中保持不变,验证了其任务无关特性。
- 风格灵活性:通过切换或混合风格先验,作者生成了如“充满活力的舞步走路”等在训练集里不存在的动作,展示了创意可组合性。
实际意义
- 加速游戏/VR 开发者的迭代:无需为每个角色或关卡训练新的对抗先验,只需接入预训练的 SMP,即可专注于游戏机制。
- 降低数据处理需求:预训练后即可丢弃参考动作数据集,减轻许可和存储压力。
- 模块化流水线:SMP 像即插即用的奖励模块,可与其他目标(如安全、能耗)自由组合或替换。
- 风格创作:设计师只需收集少量风格特定的动作片段,微调先验,即可瞬间生成共享该美学的整套角色动作。
- 跨领域迁移:由于先验独立于控制策略,同一模型可复用于机器人仿真、数字孪生或任何需要类人运动的基于物理的化身系统。
局限性与未来工作
- 依赖扩散模型质量:若扩散模型在有偏或覆盖不足的动作数据上训练,SMP 奖励将继承这些缺陷,限制风格多样性。
- 分数评估的计算开销:每个 RL 步骤计算扩散分数会增加 GPU 负担,作者指出相比纯任务奖励约慢 15 %。
- 仅限于模拟物理:真实机器人部署需要跨越仿真到真实的差距,当前工作未涉及。
- 未来方向:作者提出 (1) 引入轻量级分数近似器以加速 RL 循环;(2) 将 SMP 扩展到多智能体协同场景;(3) 探索无监督风格发现,以进一步降低人工标注需求。
作者
- Yuxuan Mu
- Ziyu Zhang
- Yi Shi
- Minami Matsumoto
- Kotaro Imamura
- Guy Tevet
- Chuan Guo
- Michael Taylor
- Chang Shu
- Pengcheng Xi
- Xue Bin Peng
论文信息
- arXiv ID: 2512.03028v1
- Categories: cs.GR, cs.AI, cs.CV, cs.RO
- Published: December 2, 2025
- PDF: Download PDF