[Paper] CHIP：通过事后扰动实现类人机器人控制的自适应柔顺性

发布: 1个月前 (2025年12月17日 GMT+8 02:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.14689v1

概述

本文介绍了 CHIP（通过后视扰动实现自适应顺应性的类人机器人控制），这是一种轻量级的“即插即用”模块，使类人机器人能够在仍然忠实跟踪快速动态动作（例如后空翻、跑步）的同时，动态调节其末端执行器的刚度。通过将顺应性与核心运动跟踪策略解耦，CHIP 使单一学习控制器能够处理多种强力操作任务——推、擦拭、协同提升——而无需额外的数据收集或奖励工程。

Source: …

关键贡献

CHIP 模块：一种通用的、可在运行时附加的层，可向任何现有的运动跟踪控制器注入可控的顺应性。
后视扰动：一种新颖的训练技巧，在事后模拟顺应性需求，使策略能够在没有显式增强的情况下从意外受力中恢复。
一套策略通用：展示了配备 CHIP 的单一通用控制器能够执行多种操作场景（多机器人交接、开门、递送箱子、擦拭），这些场景传统上需要针对任务的专门调参。
零奖励调优：表明可以在不重新设计奖励函数或添加辅助损失项的情况下实现顺应性，从而简化强化学习流程。
实时插件：CHIP 以控制频率（≈1 kHz）运行，仅需少量额外参数，便于在板载系统上实际部署。

方法论

基础运动跟踪策略 – 作者们从一个强化学习（RL）策略开始，该策略学习跟随高频参考轨迹（例如后空翻）。该策略接收本体感知观测并输出关节扭矩。
事后扰动 – 在训练期间，每次 rollout 结束后，算法会在末端执行器上事后注入一个虚拟外力（即“事后”部分）。随后要求策略在此扰动下重新跟踪原始轨迹。这迫使策略学习如何调节关节扭矩以吸收或抵消外力。
顺应参数 – 推理时，向 CHIP 提供一个标量顺应增益 (c)。该模块将名义扭矩输出与一个与测得的末端执行器偏差成比例的校正项相混合，从而软化或刚化交互。
即插即用集成 – CHIP 位于策略与机器人低层控制器之间；无需更改策略架构或 RL 损失函数。

整体流程如图所示：

Reference Trajectory → RL Policy → CHIP (compliance gain) → Torque Commands → Robot

结果与发现

场景	需要合规性？	成功率（使用 CHIP）	成功率（基线）
多机器人交接（协同提升）	高（软）	92 %	45 %
开门（推拉）	中等	88 %	33 %
擦拭桌面（滑动接触）	低（软）	95 %	51 %
递送箱子（搬运）	高（刚性）	90 %	87 %

合规控制：通过将增益 (c) 从 0（刚性）调节到 1（完全合规），同一策略可以在刚性推送和柔和滑动之间平滑切换。
无需额外数据：训练时间和样本效率与基线策略相当（≈200 万环境步）。
真实机器人验证：在 30 kg 人形平台上的实验显示，能够稳定执行后空翻并随后完成开门序列，末端执行器受力始终保持在安全范围内（< 30 N）。

这些结果证实，CHIP 能够为高性能的运动控制器赋予进行强力操作所需的灵活性。

实际意义

统一控制器堆栈：机器人团队可以维护一个用于行走和操作的单一强化学习策略，从而降低工程开销并简化版本控制。
快速原型：开发者只需微调顺应增益即可测试新的操作任务，避免昂贵的重新训练或奖励重新设计。
安全性与人机交互：可调节的顺应性使类人机器人在与人共处时更安全（例如，柔软的交接、顺应式擦拭），且不牺牲灵活性。
多机器人协作：CHIP 能够按需软化末端执行器，促进需要力共享的协同任务（例如，共同提升重物）。
边缘部署：该模块低计算开销，使其能够在移动机器人常用的嵌入式 CPU/GPU 上运行，实现现场的板载自适应。

限制与未来工作

模型依赖性：CHIP 假设有相对准确的本体感受传感和能够预测末端执行器受力的动力学模型；传感器噪声可能会削弱顺从行为。
单维增益：当前实现使用标量顺从参数；更丰富、方向特定的刚度矩阵可能在各向异性任务上提升性能。
向真实硬件的迁移：虽然作者在一个平台上展示了效果，但在不同的人形机器人形态和驱动方案上的更广泛验证仍有待开展。
从真实扰动中学习：未来工作可以将真实世界的接触事件（例如意外碰撞）纳入事后扰动循环，以进一步缩小仿真‑到‑真实的差距。

总体而言，CHIP 为高速行走与精细操作之间提供了务实的桥梁，为日常环境中更通用的人形机器人打开了大门。

作者

Sirui Chen
Zi‑ang Cao
Zhengyi Luo
Fernando Castañeda
Chenran Li
Tingwu Wang
Ye Yuan
Linxi “Jim” Fan
C. Karen Liu
Yuke Zhu

论文信息

arXiv ID: 2512.14689v1
分类: cs.RO, cs.LG
出版日期: 2025年12月16日
PDF: 下载 PDF

[Paper] CHIP：通过事后扰动实现类人机器人控制的自适应柔顺性

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] 当推理遇到其法则

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构