[Paper] SMP：可复用的 Score-Matching Motion Priors 用于基于物理的角色控制

发布: 2个月前 (2025年12月3日 GMT+8 02:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03028v1

概述

本文介绍了 Score‑Matching Motion Priors (SMP)，一种为基于物理的角色提供真实且富有风格的运动的方法，无需为每个新任务重新训练运动先验。通过一次性训练基于扩散的运动模型，并将其作为冻结的奖励函数，开发者可以在多个控制问题中复用同一先验，从而大幅简化创建逼真化身的工作流程。

关键贡献

可复用、任务无关的运动先验：SMP 只在大型动作捕捉数据集上训练一次，可直接应用于任何下游控制任务，无需进一步微调。
将分数蒸馏采样（SDS）作为奖励：扩散模型对数密度的梯度（即“分数”）被转化为稠密、可微分的奖励，直接鼓励策略生成先验认为合理的动作。
风格模块化与组合：单一通用先验可以细化为风格特定的先验（例如“开心走路”“激进跑步”），甚至可以组合生成原始数据中未出现的全新风格。
与对抗模仿学习相当的质量：定量和视觉评估表明，SMP 的表现匹配或超越最先进的对抗方法，同时具有更高的可复用性。
广泛的任务套件：在多种物理模拟的人形任务（导航、避障、物体交互等）上进行演示，证明该方法能够跨领域扩展。

方法论

运动扩散预训练
- 在大量动作捕捉片段上训练扩散模型。模型学习去噪受损的运动序列，隐式估计自然人类运动的概率密度。
分数蒸馏采样（SDS）
- 扩散训练完成后，模型的分数——相对于运动的对数概率梯度——可以对任意候选轨迹计算。
- 该分数被用作 奖励信号：产生与分数对齐的动作的策略获得更高奖励，从而被引导至扩散模型学习的分布。
策略训练
- 强化学习（RL）循环为特定任务（例如走向目标）优化控制策略。任务目标（如距离目标的远近）与 SMP 奖励相结合，平衡任务成功与动作自然性。
- SMP 模块保持冻结；仅更新策略参数。
风格专化与组合
- 为获得风格特定的先验，对标记有该风格的子集动作进行微调。
- 对于组合，线性混合多个风格特定的分数，使策略能够生成混合动作（例如“开心跑 + 潜行”）。

结果与发现

指标	对抗模仿（基线）	SMP（本工作）
动作真实感（用户研究）	4.2 / 5	4.4 / 5
导航任务成功率	92 %	94 %
训练时间（每个任务）	~48 h（包括先验再训练）	~30 h（复用先验）
内存占用（先验）	1.2 GB（每个任务）	0.8 GB（单一可复用模型）

质量：视觉对比显示，使用 SMP 的角色具有更平滑的关节轨迹和更少的脚滑现象。
可复用性：相同的先验在 10 项不同任务中保持不变，验证了其任务无关特性。
风格灵活性：通过切换或混合风格先验，作者生成了如“充满活力的舞步走路”等在训练集里不存在的动作，展示了创意可组合性。

实际意义

加速游戏/VR 开发者的迭代：无需为每个角色或关卡训练新的对抗先验，只需接入预训练的 SMP，即可专注于游戏机制。
降低数据处理需求：预训练后即可丢弃参考动作数据集，减轻许可和存储压力。
模块化流水线：SMP 像即插即用的奖励模块，可与其他目标（如安全、能耗）自由组合或替换。
风格创作：设计师只需收集少量风格特定的动作片段，微调先验，即可瞬间生成共享该美学的整套角色动作。
跨领域迁移：由于先验独立于控制策略，同一模型可复用于机器人仿真、数字孪生或任何需要类人运动的基于物理的化身系统。

局限性与未来工作

依赖扩散模型质量：若扩散模型在有偏或覆盖不足的动作数据上训练，SMP 奖励将继承这些缺陷，限制风格多样性。
分数评估的计算开销：每个 RL 步骤计算扩散分数会增加 GPU 负担，作者指出相比纯任务奖励约慢 15 %。
仅限于模拟物理：真实机器人部署需要跨越仿真到真实的差距，当前工作未涉及。
未来方向：作者提出 (1) 引入轻量级分数近似器以加速 RL 循环；(2) 将 SMP 扩展到多智能体协同场景；(3) 探索无监督风格发现，以进一步降低人工标注需求。

作者

Yuxuan Mu
Ziyu Zhang
Yi Shi
Minami Matsumoto
Kotaro Imamura
Guy Tevet
Chuan Guo
Michael Taylor
Chang Shu
Pengcheng Xi
Xue Bin Peng

论文信息

arXiv ID: 2512.03028v1
Categories: cs.GR, cs.AI, cs.CV, cs.RO
Published: December 2, 2025
PDF: Download PDF

相关文章

阅读更多 »

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……

[Paper] 测量背景对用于自动驾驶感知的深度学习中分类和特征重要性的影响

常见的可解释人工智能（XAI）在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性：saliency maps……