[Paper] 从紧急停止干预中学习鲁棒干预
Source: arXiv - 2602.03825v1
概述
本文介绍了 Robust Intervention Learning (RIL),这是一种通过学习 emergency‑stop 干预(即人工操作员按下停止按钮以防止故障的情形)来提升自主代理的框架。由于真实世界中的干预往往噪声大、稀疏,并且常常只告诉机器人 不该做什么,作者提出了一种新算法 Residual Intervention Fine‑Tuning (RIFT),将这些信号视为 不完整 的反馈,并将其与代理已有的策略相融合。
关键贡献
- Robust Intervention Learning (RIL) 的形式化定义 – 一个明确考虑人类干预不完美性的学习问题。
- Residual Intervention Fine‑Tuning (RIFT) – 一种残差式微调算法,在预训练策略之上添加纠正性的“干预头”,在保留先前知识的同时融合干预数据。
- 理论保证 – 分析表明在何种条件下 RIFT 能够可证明地提升策略,并指出失败情形(例如过于模糊的干预)。
- 广泛的实证评估 – 在模拟机器人和导航任务上的实验,展示在不同干预策略和先前策略质量下的一致策略提升。
- 实用方案 – 一个模块化流水线,可最小化工程工作量地嵌入现有强化学习(RL)或模仿学习代码库。
Source: …
方法论
问题设定
- 一个自主智能体遵循 基础策略 (\pi_{\theta})(例如通过强化学习训练的神经网络)。
- 在部署期间,人类可以在状态 (s_t) 发出 紧急停止,表示当前动作 (a_t) 不安全。
- 停止提供了一个 负向 标签(该动作应当避免),但没有提供正向的替代动作。
残差微调思路
与其直接丢弃基础策略,RIFT 学习一个 残差校正 (\Delta_{\phi}(s)),将其加入基础动作分布:
[ \pi_{\text{new}}(a|s) = \pi_{\theta}(a|s) + \Delta_{\phi}(s) ]
该残差仅在发生干预的状态上进行训练,使用的损失函数会惩罚基础策略重复不安全动作的倾向,同时鼓励探索其他可能的动作。
训练循环
- 收集数据集 (\mathcal{D} = {(s_i, a_i, \text{stop}_i)}),其中
stop_i为二进制标记。 - 对每个被干预的状态,计算一个 掩码 梯度,使概率质量远离被干预的动作并在其余动作空间上分散。
- 使用标准的随机梯度下降(或 Adam)更新 (\phi),同时保持 (\theta) 固定(或可选地以较小的学习率进行微调)。
处理模糊性
当干预是 欠指定 的(例如存在许多安全动作)时,残差的正则化项会使其保持接近零,防止模型对噪声信号产生过度反应。
结果与发现
| 实验 | 先前策略质量 | 干预策略 | 策略改进 |
|---|---|---|---|
| 模拟无人机导航 | 高(接近最优) | 稀疏停止(≈5 % 的步骤) | 成功率提升 +3 % |
| 移动机器人障碍规避 | 中等 | 密集停止(≈20 % 的步骤) | 成功率提升 +12 % |
| 连续控制机械臂(抓放) | 低(随机初始化) | 混合停止(随机 + 针对性) | 成功率提升 +18 % |
- 鲁棒性: RIFT 始终优于天真的微调(从头重新训练)和仅基于干预数据的行为克隆。
- 敏感性: 即使高达 30 % 的干预是 误报(人为错误触发的停止),算法仍保持稳定。
- 消融实验: 移除残差项导致对基础策略的灾难性遗忘,证实了保留先前知识的重要性。
实际影响
- 安全关键部署: 自动驾驶车辆、无人机和仓库机器人可以摄取紧急停止日志,以快速修补不安全行为,而无需完整的再训练周期。
- 持续学习流水线: RIFT 适用于“边运行边学习”循环——在 beta 测试期间收集干预,夜间运行轻量级微调作业,并重新部署更新后的模型。
- 降低数据标注成本: 由于干预已由操作员生成(无需额外标注工作),公司可以利用现有安全日志作为有价值的训练信号。
- 兼容性: 残差架构与框架无关;开发者可以用一个小型 MLP 头部包装任意 PyTorch/TensorFlow 策略网络,以实现 (\Delta_{\phi})。
限制与未来工作
- 干预覆盖率: 如果人在状态空间的关键区域从未进行干预,RIFT 无法推断所需的纠正——覆盖率仍是瓶颈。
- 单动作停止的假设: 当前的表述将停止视为二元的“错误动作”信号;将其扩展到更丰富的反馈(例如纠正性示范)留待未来研究。
- 对高维动作空间的可扩展性: 虽然实验在连续控制上展示了前景,但残差模型的容量可能需要针对非常大的动作流形(例如多关节机械臂)进行扩展。
- 理论空白: 分析假设环境是静态的;处理非静态动力学(如道路条件变化、传感器漂移)仍是一个未解的挑战。
底线: 稳健干预学习,尤其是 RIFT 算法,为开发者提供了一条务实的路径,将安全关键的人类干预转化为可执行的模型改进,加速自主系统的安全部署。
作者
- Ethan Pronovost
- Khimya Khetarpal
- Siddhartha Srinivasa
论文信息
- arXiv ID: 2602.03825v1
- 分类: cs.LG
- 发布于: 2026年2月3日
- PDF: 下载 PDF