[Paper] InterPrior:用于基于物理的人体-物体交互的可扩展生成控制
发布: (2026年2月6日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06035v1
概述
本文介绍了 InterPrior,一个新框架,教会生成式控制器产生在与物体交互时符合物理的全身运动。通过将大规模模仿学习与强化学习微调相结合,作者们创建了一个运动先验,能够处理各种移动操作任务——比如捡起杯子、打开门或在移动平台上保持平衡——同时保持物理上的合理性。
关键贡献
- Unified generative controller 能够从大规模动作捕捉数据中学习,并且可以根据高级意图(例如 “grab”、 “push”、 “walk”)进行条件控制。
- Goal‑conditioned variational policy 能够重建多模态观测(姿态、接触、物体状态)和高级指令。
- Physical data augmentation(扰动、力注入)进行物理数据增强,使模型在预训练阶段接触分布外情形。
- Reinforcement‑learning fine‑tuning 通过强化学习微调来细化蒸馏策略,提高对未见目标和初始状态的鲁棒性。
- Demonstrations of interactive control(实时用户引导)和 transfer to real robots,展示模型的实际可行性。
方法论
-
模仿预训练
- 收集大量的人体‑物体交互剪辑(例如,记录人们携带物品行走的动作捕捉数据)。
- 训练一个 全参考专家(一个能够看到完整未来轨迹的高容量模型)来模仿这些剪辑。
- 将该专家蒸馏为一个 目标条件变分策略,该策略仅接收当前观测和高级意图,学习一个潜在的“技能空间”,能够重建原始动作。
-
物理扰动增强
- 在训练过程中随机施加力、改变物体质量或抖动关节位置。
- 这迫使策略学习如何从物理上不现实的状态中恢复,扩展可达的潜在流形。
-
强化学习微调
- 定义一个奖励函数,惩罚物理违规(例如,穿透、失去平衡),并鼓励任务完成(例如,触及目标物体)。
- 使用强化学习(例如 PPO)来调整策略参数,提高在 未见目标 和 新颖物体配置 上的表现。
-
推理与交互
- 在运行时,开发者提供一个高级指令(例如,“拾起红色盒子”)以及可选约束(期望的手部位置)。
- 策略从其潜在空间中采样,生成符合物理并满足用户意图的全身轨迹。
结果与发现
- 泛化:微调后的策略成功处理了在模仿训练中未见过的物体和姿态,性能优于未进行强化学习微调的基线模型。
- 物理一致性:量化指标(例如质心稳定性、接触力)显示,与纯模仿模型相比,平衡违规降低了 30 %。
- 交互控制:实时用户引导实验表明,在意图切换时能够实现平滑过渡,且没有明显的抖动或脚滑现象。
- 机器人迁移:在类人机器人平台上部署时,控制器生成了符合机器人扭矩限制的可行关节指令,使得“推椅子”和“提箱子”等任务能够在几乎不需要额外调参的情况下完成。
Practical Implications
- Game & VR Development: InterPrior 可以作为即插即用的运动先验,用于需要与动态环境交互的化身,减少对手工制作动画混合的需求。
- Robotics: 类人机器人可以利用学习到的先验快速获得新的操作技能,而无需繁琐的任务特定编程——这对家庭或仓库中的服务机器人非常有用。
- Simulation‑Based Training: 自动驾驶或人群仿真流水线可以注入真实的人体‑物体交互,提升安全验证和场景多样性。
- Human‑Centric AI Assistants: 需要展示或预测人类动作的虚拟助手(例如 AR 教练应用)可以使用该模型即时生成合理的全身示例。
限制与未来工作
- 数据集偏差:模型的性能取决于模仿数据集的多样性;罕见或高度专业化的交互仍可能代表性不足。
- 计算成本:在高自由度人形机器人上进行实时推理需要 GPU 加速,这可能成为边缘设备的瓶颈。
- 细粒度灵巧度:虽然该框架能够很好地处理粗略的运动操作,但细致的手指操作(例如打字)仍超出其当前范围。
- 未来方向:作者建议扩展到多智能体场景,集成基于视觉的感知以实现即时目标检测,并探索更高样本效率的强化学习微调方法。
Source:
作者
- Sirui Xu
- Samuel Schulter
- Morteza Ziyadi
- Xialin He
- Xiaohan Fei
- Yu‑Xiong Wang
- Liangyan Gui
论文信息
- arXiv ID: 2602.06035v1
- 分类: cs.CV, cs.GR, cs.RO
- 发布时间: 2026年2月5日
- PDF: Download PDF