[Paper] PhysMoDPO：物理上可信的类人形运动与偏好优化

发布: 1个月前 (2026年3月14日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.13228v1

Overview

PhysMoDPO 解决了高质量、文本驱动的动作生成与真实类人机器人物理约束之间的长期鸿沟。通过将全身控制器（Whole‑Body Controller，WBC）直接嵌入基于扩散的动作模型的训练循环，并使用直接偏好优化（Direct Preference Optimization，DPO），作者使模型能够输出既符合文本提示又可物理执行的动作——无需依赖脆弱的手工启发式规则。

关键贡献

基于偏好的扩散训练：引入一种 DPO 框架，将 WBC 的输出视为“偏好”轨迹，使模型能够从物理感知的奖励而非静态损失项中学习。
端到端物理集成：将 WBC 融入训练流水线，使扩散模型针对推理时将面临的精确动力学进行优化。
任务特定奖励设计：使用物理基础（例如平衡、脚滑）和任务特定（例如到达目标点）奖励的组合，自动生成偏好标签。
零样本迁移到真实机器人：展示仅在仿真中训练的模型可在 G1 人形机器人上部署，且只需极少的微调。
全面评估：在文本到动作和空间控制任务上提供大量基准，显示相较于先前的扩散‑WBC 流水线在物理真实感和任务成功率上有持续提升。

方法论

基础扩散模型 – 采用最先进的文本条件运动扩散模型，基于大规模动作捕捉数据集进行训练。
全身控制器 (WBC) – 一个基于物理的控制器，将原始运动轨迹转换为满足平衡、接触和扭矩限制的关节扭矩/位置。
偏好生成 – 对每个训练提示，模型采样两个候选动作，经过 WBC 处理后，用 奖励函数 为它们打分，奖励函数融合了：
- 物理合理性（质心稳定性、脚滑惩罚、关节限制）
- 任务忠实度（到目标的距离、对文本约束的遵循）
  得分更高的轨迹被标记为“偏好”轨迹。
直接偏好优化 (DPO) – 与传统的似然损失不同，DPO 最大化模型对偏好轨迹相对于非偏好轨迹的概率。这是对成对偏好 logits 应用的简单二元交叉熵损失。
训练循环 – 扩散模型迭代更新，每一步包括：采样 → WBC → 奖励 → 偏好标签 → DPO 损失。由于 WBC 参与循环，模型能够学习预判控制器的调整。

整个流水线在 GPU 上运行；WBC 实现为可微分的物理仿真（例如使用 MuJoCo 或 PyBullet），因此偏好信号的梯度可以直接传播，而无需显式地对控制器进行反向传播。

结果与发现

任务	指标	基线（Diffusion + WBC）	PhysMoDPO
文本到动作（平衡）	步骤中无脚滑的百分比	68 %	92 %
空间控制（到达目标）	平均欧氏误差（厘米）	15.2	8.4
模拟类人形机器人（G1）	10秒行走成功率	0.71	0.94
真实世界部署（G1 机器人）	任务完成情况（抓取放置）	—（失败）	✓（平稳执行）

关键要点

物理真实感显著提升——脚滑和平衡违规下降超过30 %。
任务性能（例如到达空间目标）误差约减半。
该模型仅在仿真中训练，却能在仅经过短暂校准阶段后转移到实体机器人，验证了所学习的物理感知先验的鲁棒性。

实际意义

游戏与 VR 开发者 可以直接从叙事提示生成角色动画，并确保导出到物理引擎时，生成的动作不会出现相交或不真实的脚滑现象。
机器人工程师 获得了即插即用的运动生成器，能够遵守扭矩限制和保持平衡，减少手动调优后处理或昂贵的动作捕捉流水线的需求。
内容流水线 可以更简化：设计师编写高级意图（例如“走向桌子，捡起杯子”），系统即可输出可直接用于机器人低层控制器的轨迹。
仿真到真实的迁移 变得不那么脆弱；同一扩散模型可以在多个类人平台（如 Atlas、Pepper）上复用，只需对 WBC 参数进行少量重新调校。

总体而言，PhysMoDPO 在表达性强、语言驱动的动作合成与真实世界物理硬约束之间架起了桥梁，为更自主、可适应的类人系统打开了新局面。

限制与未来工作

计算成本 – 对每个训练样本运行 WBC 会增加开销；将规模扩展到数十亿个动作片段可能需要更高效的可微分模拟器或代理模型。
奖励设计依赖 – 生成动作的质量取决于手工设计的奖励项；发现更通用或学习得到的奖励函数可能进一步降低偏差。
机器人多样性受限 – 实验仅聚焦于单一的人形机器人 (G1)。将验证扩展到其他形态（例如四足机器人、外骨骼）留作未来工作。
实时推理 – 虽然生成速度快，但仍需后处理的 WBC 步骤才能在硬件上执行；更紧密的集成或学习型控制器可能实现端到端的实时流水线。

作者建议探索元学习方法，以在不同机器人平台之间适应偏好模型，并研究能够处理更长多任务序列的层次扩散模型。

作者

Yangsong Zhang
Anujith Muraleedharan
Rikhat Akizhanov
Abdul Ahad Butt
Gül Varol
Pascal Fua
Fabio Pizzati
Ivan Laptev

论文信息

arXiv ID: 2603.13228v1
分类: cs.LG, cs.AI, cs.CV, cs.RO
出版日期: 2026年3月13日
PDF: Download PDF

[Paper] PhysMoDPO：物理上可信的类人形运动与偏好优化

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 时空物理系统的表征学习

[Paper] Visual-ERM：视觉等价的奖励建模

[Paper] 迈向可信的多模态概念瓶颈模型

[Paper] 线性化注意力中的影响可塑性：非收敛 NTK 动力学的双重含义