[Paper] 从紧急停止干预中学习鲁棒干预

发布: (2026年2月4日 GMT+8 02:33)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.03825v1

概述

本文介绍了 Robust Intervention Learning (RIL),这是一种通过学习 emergency‑stop 干预(即人工操作员按下停止按钮以防止故障的情形)来提升自主代理的框架。由于真实世界中的干预往往噪声大、稀疏,并且常常只告诉机器人 不该做什么,作者提出了一种新算法 Residual Intervention Fine‑Tuning (RIFT),将这些信号视为 不完整 的反馈,并将其与代理已有的策略相融合。

关键贡献

  • Robust Intervention Learning (RIL) 的形式化定义 – 一个明确考虑人类干预不完美性的学习问题。
  • Residual Intervention Fine‑Tuning (RIFT) – 一种残差式微调算法,在预训练策略之上添加纠正性的“干预头”,在保留先前知识的同时融合干预数据。
  • 理论保证 – 分析表明在何种条件下 RIFT 能够可证明地提升策略,并指出失败情形(例如过于模糊的干预)。
  • 广泛的实证评估 – 在模拟机器人和导航任务上的实验,展示在不同干预策略和先前策略质量下的一致策略提升。
  • 实用方案 – 一个模块化流水线,可最小化工程工作量地嵌入现有强化学习(RL)或模仿学习代码库。

Source:

方法论

问题设定

  • 一个自主智能体遵循 基础策略 (\pi_{\theta})(例如通过强化学习训练的神经网络)。
  • 在部署期间,人类可以在状态 (s_t) 发出 紧急停止,表示当前动作 (a_t) 不安全。
  • 停止提供了一个 负向 标签(该动作应当避免),但没有提供正向的替代动作。

残差微调思路

与其直接丢弃基础策略,RIFT 学习一个 残差校正 (\Delta_{\phi}(s)),将其加入基础动作分布:

[ \pi_{\text{new}}(a|s) = \pi_{\theta}(a|s) + \Delta_{\phi}(s) ]

该残差仅在发生干预的状态上进行训练,使用的损失函数会惩罚基础策略重复不安全动作的倾向,同时鼓励探索其他可能的动作。

训练循环

  1. 收集数据集 (\mathcal{D} = {(s_i, a_i, \text{stop}_i)}),其中 stop_i 为二进制标记。
  2. 对每个被干预的状态,计算一个 掩码 梯度,使概率质量远离被干预的动作并在其余动作空间上分散。
  3. 使用标准的随机梯度下降(或 Adam)更新 (\phi),同时保持 (\theta) 固定(或可选地以较小的学习率进行微调)。

处理模糊性

当干预是 欠指定 的(例如存在许多安全动作)时,残差的正则化项会使其保持接近零,防止模型对噪声信号产生过度反应。

结果与发现

实验先前策略质量干预策略策略改进
模拟无人机导航高(接近最优)稀疏停止(≈5 % 的步骤)成功率提升 +3 %
移动机器人障碍规避中等密集停止(≈20 % 的步骤)成功率提升 +12 %
连续控制机械臂(抓放)低(随机初始化)混合停止(随机 + 针对性)成功率提升 +18 %
  • 鲁棒性: RIFT 始终优于天真的微调(从头重新训练)和仅基于干预数据的行为克隆。
  • 敏感性: 即使高达 30 % 的干预是 误报(人为错误触发的停止),算法仍保持稳定。
  • 消融实验: 移除残差项导致对基础策略的灾难性遗忘,证实了保留先前知识的重要性。

实际影响

  • 安全关键部署: 自动驾驶车辆、无人机和仓库机器人可以摄取紧急停止日志,以快速修补不安全行为,而无需完整的再训练周期。
  • 持续学习流水线: RIFT 适用于“边运行边学习”循环——在 beta 测试期间收集干预,夜间运行轻量级微调作业,并重新部署更新后的模型。
  • 降低数据标注成本: 由于干预已由操作员生成(无需额外标注工作),公司可以利用现有安全日志作为有价值的训练信号。
  • 兼容性: 残差架构与框架无关;开发者可以用一个小型 MLP 头部包装任意 PyTorch/TensorFlow 策略网络,以实现 (\Delta_{\phi})。

限制与未来工作

  • 干预覆盖率: 如果人在状态空间的关键区域从未进行干预,RIFT 无法推断所需的纠正——覆盖率仍是瓶颈。
  • 单动作停止的假设: 当前的表述将停止视为二元的“错误动作”信号;将其扩展到更丰富的反馈(例如纠正性示范)留待未来研究。
  • 对高维动作空间的可扩展性: 虽然实验在连续控制上展示了前景,但残差模型的容量可能需要针对非常大的动作流形(例如多关节机械臂)进行扩展。
  • 理论空白: 分析假设环境是静态的;处理非静态动力学(如道路条件变化、传感器漂移)仍是一个未解的挑战。

底线: 稳健干预学习,尤其是 RIFT 算法,为开发者提供了一条务实的路径,将安全关键的人类干预转化为可执行的模型改进,加速自主系统的安全部署。

作者

  • Ethan Pronovost
  • Khimya Khetarpal
  • Siddhartha Srinivasa

论文信息

  • arXiv ID: 2602.03825v1
  • 分类: cs.LG
  • 发布于: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……