[Paper] InterPrior:用于基于物理的人体-物体交互的可扩展生成控制

发布: (2026年2月6日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06035v1

概述

本文介绍了 InterPrior,一个新框架,教会生成式控制器产生在与物体交互时符合物理的全身运动。通过将大规模模仿学习与强化学习微调相结合,作者们创建了一个运动先验,能够处理各种移动操作任务——比如捡起杯子、打开门或在移动平台上保持平衡——同时保持物理上的合理性。

关键贡献

  • Unified generative controller 能够从大规模动作捕捉数据中学习,并且可以根据高级意图(例如 “grab”、 “push”、 “walk”)进行条件控制。
  • Goal‑conditioned variational policy 能够重建多模态观测(姿态、接触、物体状态)和高级指令。
  • Physical data augmentation(扰动、力注入)进行物理数据增强,使模型在预训练阶段接触分布外情形。
  • Reinforcement‑learning fine‑tuning 通过强化学习微调来细化蒸馏策略,提高对未见目标和初始状态的鲁棒性。
  • Demonstrations of interactive control(实时用户引导)和 transfer to real robots,展示模型的实际可行性。

方法论

  1. 模仿预训练

    • 收集大量的人体‑物体交互剪辑(例如,记录人们携带物品行走的动作捕捉数据)。
    • 训练一个 全参考专家(一个能够看到完整未来轨迹的高容量模型)来模仿这些剪辑。
    • 将该专家蒸馏为一个 目标条件变分策略,该策略仅接收当前观测和高级意图,学习一个潜在的“技能空间”,能够重建原始动作。
  2. 物理扰动增强

    • 在训练过程中随机施加力、改变物体质量或抖动关节位置。
    • 这迫使策略学习如何从物理上不现实的状态中恢复,扩展可达的潜在流形。
  3. 强化学习微调

    • 定义一个奖励函数,惩罚物理违规(例如,穿透、失去平衡),并鼓励任务完成(例如,触及目标物体)。
    • 使用强化学习(例如 PPO)来调整策略参数,提高在 未见目标新颖物体配置 上的表现。
  4. 推理与交互

    • 在运行时,开发者提供一个高级指令(例如,“拾起红色盒子”)以及可选约束(期望的手部位置)。
    • 策略从其潜在空间中采样,生成符合物理并满足用户意图的全身轨迹。

结果与发现

  • 泛化:微调后的策略成功处理了在模仿训练中未见过的物体和姿态,性能优于未进行强化学习微调的基线模型。
  • 物理一致性:量化指标(例如质心稳定性、接触力)显示,与纯模仿模型相比,平衡违规降低了 30 %。
  • 交互控制:实时用户引导实验表明,在意图切换时能够实现平滑过渡,且没有明显的抖动或脚滑现象。
  • 机器人迁移:在类人机器人平台上部署时,控制器生成了符合机器人扭矩限制的可行关节指令,使得“推椅子”和“提箱子”等任务能够在几乎不需要额外调参的情况下完成。

Practical Implications

  • Game & VR Development: InterPrior 可以作为即插即用的运动先验,用于需要与动态环境交互的化身,减少对手工制作动画混合的需求。
  • Robotics: 类人机器人可以利用学习到的先验快速获得新的操作技能,而无需繁琐的任务特定编程——这对家庭或仓库中的服务机器人非常有用。
  • Simulation‑Based Training: 自动驾驶或人群仿真流水线可以注入真实的人体‑物体交互,提升安全验证和场景多样性。
  • Human‑Centric AI Assistants: 需要展示或预测人类动作的虚拟助手(例如 AR 教练应用)可以使用该模型即时生成合理的全身示例。

限制与未来工作

  • 数据集偏差:模型的性能取决于模仿数据集的多样性;罕见或高度专业化的交互仍可能代表性不足。
  • 计算成本:在高自由度人形机器人上进行实时推理需要 GPU 加速,这可能成为边缘设备的瓶颈。
  • 细粒度灵巧度:虽然该框架能够很好地处理粗略的运动操作,但细致的手指操作(例如打字)仍超出其当前范围。
  • 未来方向:作者建议扩展到多智能体场景,集成基于视觉的感知以实现即时目标检测,并探索更高样本效率的强化学习微调方法。

Source:

作者

  • Sirui Xu
  • Samuel Schulter
  • Morteza Ziyadi
  • Xialin He
  • Xiaohan Fei
  • Yu‑Xiong Wang
  • Liangyan Gui

论文信息

  • arXiv ID: 2602.06035v1
  • 分类: cs.CV, cs.GR, cs.RO
  • 发布时间: 2026年2月5日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……