[Paper] 从紧急停止干预中学习鲁棒干预

发布: 5天前 (2026年2月4日 GMT+8 02:33)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.03825v1

概述

本文介绍了 Robust Intervention Learning (RIL)，这是一种通过学习 emergency‑stop 干预（即人工操作员按下停止按钮以防止故障的情形）来提升自主代理的框架。由于真实世界中的干预往往噪声大、稀疏，并且常常只告诉机器人 不该做什么，作者提出了一种新算法 Residual Intervention Fine‑Tuning (RIFT)，将这些信号视为 不完整 的反馈，并将其与代理已有的策略相融合。

关键贡献

Robust Intervention Learning (RIL) 的形式化定义 – 一个明确考虑人类干预不完美性的学习问题。
Residual Intervention Fine‑Tuning (RIFT) – 一种残差式微调算法，在预训练策略之上添加纠正性的“干预头”，在保留先前知识的同时融合干预数据。
理论保证 – 分析表明在何种条件下 RIFT 能够可证明地提升策略，并指出失败情形（例如过于模糊的干预）。
广泛的实证评估 – 在模拟机器人和导航任务上的实验，展示在不同干预策略和先前策略质量下的一致策略提升。
实用方案 – 一个模块化流水线，可最小化工程工作量地嵌入现有强化学习（RL）或模仿学习代码库。

Source: …

方法论

问题设定

一个自主智能体遵循 基础策略 (\pi_{\theta})（例如通过强化学习训练的神经网络）。
在部署期间，人类可以在状态 (s_t) 发出 紧急停止，表示当前动作 (a_t) 不安全。
停止提供了一个负向标签（该动作应当避免），但没有提供正向的替代动作。

残差微调思路

与其直接丢弃基础策略，RIFT 学习一个 残差校正 (\Delta_{\phi}(s))，将其加入基础动作分布：

[ \pi_{\text{new}}(a|s) = \pi_{\theta}(a|s) + \Delta_{\phi}(s) ]

该残差仅在发生干预的状态上进行训练，使用的损失函数会惩罚基础策略重复不安全动作的倾向，同时鼓励探索其他可能的动作。

训练循环

收集数据集 (\mathcal{D} = {(s_i, a_i, \text{stop}_i)})，其中 stop_i 为二进制标记。
对每个被干预的状态，计算一个掩码梯度，使概率质量远离被干预的动作并在其余动作空间上分散。
使用标准的随机梯度下降（或 Adam）更新 (\phi)，同时保持 (\theta) 固定（或可选地以较小的学习率进行微调）。

处理模糊性

当干预是 欠指定 的（例如存在许多安全动作）时，残差的正则化项会使其保持接近零，防止模型对噪声信号产生过度反应。

结果与发现

实验	先前策略质量	干预策略	策略改进
模拟无人机导航	高（接近最优）	稀疏停止（≈5 % 的步骤）	成功率提升 +3 %
移动机器人障碍规避	中等	密集停止（≈20 % 的步骤）	成功率提升 +12 %
连续控制机械臂（抓放）	低（随机初始化）	混合停止（随机 + 针对性）	成功率提升 +18 %

鲁棒性： RIFT 始终优于天真的微调（从头重新训练）和仅基于干预数据的行为克隆。
敏感性： 即使高达 30 % 的干预是误报（人为错误触发的停止），算法仍保持稳定。
消融实验： 移除残差项导致对基础策略的灾难性遗忘，证实了保留先前知识的重要性。

实际影响

安全关键部署: 自动驾驶车辆、无人机和仓库机器人可以摄取紧急停止日志，以快速修补不安全行为，而无需完整的再训练周期。
持续学习流水线: RIFT 适用于“边运行边学习”循环——在 beta 测试期间收集干预，夜间运行轻量级微调作业，并重新部署更新后的模型。
降低数据标注成本: 由于干预已由操作员生成（无需额外标注工作），公司可以利用现有安全日志作为有价值的训练信号。
兼容性: 残差架构与框架无关；开发者可以用一个小型 MLP 头部包装任意 PyTorch/TensorFlow 策略网络，以实现 (\Delta_{\phi})。

限制与未来工作

干预覆盖率: 如果人在状态空间的关键区域从未进行干预，RIFT 无法推断所需的纠正——覆盖率仍是瓶颈。
单动作停止的假设: 当前的表述将停止视为二元的“错误动作”信号；将其扩展到更丰富的反馈（例如纠正性示范）留待未来研究。
对高维动作空间的可扩展性: 虽然实验在连续控制上展示了前景，但残差模型的容量可能需要针对非常大的动作流形（例如多关节机械臂）进行扩展。
理论空白: 分析假设环境是静态的；处理非静态动力学（如道路条件变化、传感器漂移）仍是一个未解的挑战。

底线: 稳健干预学习，尤其是 RIFT 算法，为开发者提供了一条务实的路径，将安全关键的人类干预转化为可执行的模型改进，加速自主系统的安全部署。

作者

Ethan Pronovost
Khimya Khetarpal
Siddhartha Srinivasa

论文信息

arXiv ID: 2602.03825v1
分类: cs.LG
发布于: 2026年2月3日
PDF: 下载 PDF

[Paper] 从紧急停止干预中学习鲁棒干预

概述

关键贡献

方法论

问题设定

残差微调思路

训练循环

处理模糊性

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同