[Paper] 如何用刀剥离：将细粒度操作与人类偏好对齐

发布: 2天前 (2026年3月4日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.03280v1

概述

本文针对一类对人类来说容易，但对机器人而言极具挑战性的操作任务——如剥蔬菜、切割组织或雕刻木材——进行研究，这类任务的成功是基于连续的、主观的尺度，而非二元的“完成/未完成”。作者以刀具剥离作为测试平台，提出了一个两阶段学习流水线：首先通过感知力的示范构建稳健的基线策略，然后利用人类在环路中的偏好反馈进行细化。结果表明，该系统在仅观看数十次示范后，就能以 >90 % 的成功率剥离各种农产品。

关键贡献

力感知模仿学习：收集短小、高质量的示范，显式编码接触力，使基线策略能够在形状、尺寸和刚度变化下实现泛化。
基于偏好的微调：引入学习的奖励模型，将可度量的指标（如剥皮厚度、表面损伤）与定性的人工偏好相结合，使机器人行为能够与人们认为的“良好剥皮”保持一致。
数据效率：在每种农产品仅使用 50–200 条轨迹即可实现强劲性能，相比典型的强化学习流水线需要数千次回滚，数据需求大幅降低。
零样本泛化：在单一类别（例如黄瓜）上训练的策略能够成功迁移到同类别的未见项目，甚至在无需额外训练的情况下对分布外的农产品（如苹果、土豆）也能表现良好。
来自偏好反馈的量化提升：在偏好驱动的精炼阶段后，成功率可提升至 40 % 以上。

方法论

数据收集与模仿学习
- 人类操作员执行剥皮动作，同时力‑扭矩传感器记录接触力和刀具轨迹。
- 将收集到的示范通过随机扰动（不同的起始姿态、变化的抓握力度）进行增强，以提升鲁棒性。
- 行为克隆网络（CNN + LSTM）学习将视觉输入（水果的 RGB‑D）和力传感器读数映射到运动指令。
基于偏好的奖励建模
- 在基线策略部署后，系统为同一对象生成多个候选剥皮轨迹。
- 人类标注者根据感知质量（平滑度、完整性、最小浪费）对轨迹对进行排序。
- 使用成对排序损失训练一个浅层神经网络奖励模型，以预测任意轨迹的标量“偏好分数”。
通过强化学习进行策略微调
- 学到的奖励模型取代手工设计的奖励函数。
- 采用近端策略优化（Proximal Policy Optimization，PPO），在仍然遵守安全约束（力限制、碰撞避免）的前提下，微调基线策略以最大化预测的偏好分数。
评估协议
- 成功定义为去除 ≥90 % 表皮且损伤底层果肉 ≤10 %。
- 实验覆盖三类农产品（黄瓜、苹果、土豆），每类 10–15 个不同实例，并加入一组分布外项目（如西葫芦、芒果）。

结果与发现

农产品	基线（模仿）成功率	偏好微调后	新类别零样本表现
Cucumber	84 %	92 % (+8 %)	90 %
Apple	78 %	94 % (+16 %)	91 %
Potato	81 %	95 % (+14 %)	92 %

数据效率：仅使用 120 条黄瓜轨迹，系统已达到 >80 % 的成功率；加入偏好数据（≈200 对成对比较）后，成功率超过 90 %。
泛化能力：在黄瓜上训练的策略在未见过的黄瓜以及胡萝卜和西葫芦上也能实现 >90 % 的成功率，且无需重新训练。
人类对齐：经过偏好微调的策略产生更平滑、更均匀的剥皮效果，符合标注者给出的定性排名。

实际意义

食品加工自动化：小规模制造商可以部署单个机器人手臂来处理多种农产品，降低人工成本和浪费。
外科辅助：相同的基于偏好的框架可以适用于“好”结果主观的任务（例如组织牵拉），使外科医生能够通过对试验动作的排序来教机器人，而无需显式的奖励设计。
新任务的快速原型：由于该流水线仅需几十个示例加上轻量级的人类排序，工程师可以快速为新颖的接触丰富任务（例如布线、抛光）启动策略。
安全性与合规性：通过将力反馈直接融入模仿和强化阶段，该方法遵守力限制，适用于协作机器人（cobot）环境。

局限性与未来工作

人类偏好的可扩展性：虽然成对排名比完整示范更便宜，但对于非常复杂的任务，收集足够的比较仍可能耗时。
传感器依赖：该方法依赖于精确的力矩传感和高分辨率深度数据；硬件噪声更大时性能可能下降。
任务特异性：奖励模型是针对每个任务（如剥皮）进行训练的；将单一模型扩展到异构任务仍是一个未解决的挑战。
未来方向：作者建议探索元学习以在任务之间转移偏好模型，集成触觉相机以获取更丰富的接触信息，并在光照和杂乱变化的真实厨房机器人上测试该流水线。

作者

Toru Lin
Shuying Deng
Zhao‑Heng Yin
Pieter Abbeel
Jitendra Malik

论文信息

arXiv ID: 2603.03280v1
分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY
出版时间: 2026年3月3日
PDF: 下载 PDF

[Paper] 如何用刀剥离：将细粒度操作与人类偏好对齐

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[论文] SimpliHuMoN: 简化人体动作预测

[Paper] ZipMap：线性时间有状态3D重建与测试时训练

[Paper] RANGER: 稀疏门控混合专家与自适应检索再排序用于病理报告生成

Tether：自主功能性玩耍与Correspondence-Driven Trajectory Warping