[Paper] InterPrior：用于基于物理的人体-物体交互的可扩展生成控制

发布: 3天前 (2026年2月6日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06035v1

概述

本文介绍了 InterPrior，一个新框架，教会生成式控制器产生在与物体交互时符合物理的全身运动。通过将大规模模仿学习与强化学习微调相结合，作者们创建了一个运动先验，能够处理各种移动操作任务——比如捡起杯子、打开门或在移动平台上保持平衡——同时保持物理上的合理性。

关键贡献

Unified generative controller 能够从大规模动作捕捉数据中学习，并且可以根据高级意图（例如 “grab”、 “push”、 “walk”）进行条件控制。
Goal‑conditioned variational policy 能够重建多模态观测（姿态、接触、物体状态）和高级指令。
Physical data augmentation（扰动、力注入）进行物理数据增强，使模型在预训练阶段接触分布外情形。
Reinforcement‑learning fine‑tuning 通过强化学习微调来细化蒸馏策略，提高对未见目标和初始状态的鲁棒性。
Demonstrations of interactive control（实时用户引导）和 transfer to real robots，展示模型的实际可行性。

方法论

模仿预训练
- 收集大量的人体‑物体交互剪辑（例如，记录人们携带物品行走的动作捕捉数据）。
- 训练一个 全参考专家（一个能够看到完整未来轨迹的高容量模型）来模仿这些剪辑。
- 将该专家蒸馏为一个 目标条件变分策略，该策略仅接收当前观测和高级意图，学习一个潜在的“技能空间”，能够重建原始动作。
物理扰动增强
- 在训练过程中随机施加力、改变物体质量或抖动关节位置。
- 这迫使策略学习如何从物理上不现实的状态中恢复，扩展可达的潜在流形。
强化学习微调
- 定义一个奖励函数，惩罚物理违规（例如，穿透、失去平衡），并鼓励任务完成（例如，触及目标物体）。
- 使用强化学习（例如 PPO）来调整策略参数，提高在 未见目标 和 新颖物体配置 上的表现。
推理与交互
- 在运行时，开发者提供一个高级指令（例如，“拾起红色盒子”）以及可选约束（期望的手部位置）。
- 策略从其潜在空间中采样，生成符合物理并满足用户意图的全身轨迹。

结果与发现

泛化：微调后的策略成功处理了在模仿训练中未见过的物体和姿态，性能优于未进行强化学习微调的基线模型。
物理一致性：量化指标（例如质心稳定性、接触力）显示，与纯模仿模型相比，平衡违规降低了 30 %。
交互控制：实时用户引导实验表明，在意图切换时能够实现平滑过渡，且没有明显的抖动或脚滑现象。
机器人迁移：在类人机器人平台上部署时，控制器生成了符合机器人扭矩限制的可行关节指令，使得“推椅子”和“提箱子”等任务能够在几乎不需要额外调参的情况下完成。

Practical Implications

Game & VR Development: InterPrior 可以作为即插即用的运动先验，用于需要与动态环境交互的化身，减少对手工制作动画混合的需求。
Robotics: 类人机器人可以利用学习到的先验快速获得新的操作技能，而无需繁琐的任务特定编程——这对家庭或仓库中的服务机器人非常有用。
Simulation‑Based Training: 自动驾驶或人群仿真流水线可以注入真实的人体‑物体交互，提升安全验证和场景多样性。
Human‑Centric AI Assistants: 需要展示或预测人类动作的虚拟助手（例如 AR 教练应用）可以使用该模型即时生成合理的全身示例。

限制与未来工作

数据集偏差：模型的性能取决于模仿数据集的多样性；罕见或高度专业化的交互仍可能代表性不足。
计算成本：在高自由度人形机器人上进行实时推理需要 GPU 加速，这可能成为边缘设备的瓶颈。
细粒度灵巧度：虽然该框架能够很好地处理粗略的运动操作，但细致的手指操作（例如打字）仍超出其当前范围。
未来方向：作者建议扩展到多智能体场景，集成基于视觉的感知以实现即时目标检测，并探索更高样本效率的强化学习微调方法。

Source:

作者

Sirui Xu
Samuel Schulter
Morteza Ziyadi
Xialin He
Xiaohan Fei
Yu‑Xiong Wang
Liangyan Gui

论文信息

arXiv ID: 2602.06035v1
分类: cs.CV, cs.GR, cs.RO
发布时间: 2026年2月5日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中，我们提出了一种对 PInv 的自然推广……

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

高效且持续地将 large pretrained models 适配到新任务对于 real‑world deployment 至关重要，但由于 catastrophic forgetting 等挑战仍然困难。

[Paper] 从透视描述预测相机姿态用于空间推理

多图像空间推理仍然是当前多模态大语言模型（MLLMs）的挑战。虽然单视角感知本质上是二维的，推理……

[Paper] SwimBird: 在混合自回归 MLLMs 中引发可切换的推理模式

多模态大型语言模型（MLLMs）通过连接视觉和语言，在多模态感知和推理方面取得了显著进展。然而，大多数现有...