[论文] 共享自治范式中信念与策略学习的端到端优化

发布: 1周前 (2026年1月31日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.23285v1

概述

本文提出了 BRACE（Bayesian Reinforcement Assistance with Context Encoding），这是一种全新的端到端框架，能够同时学习推断用户意图并决定机器人应提供多少帮助。通过让 belief‑inference 模块与 control policy 共享梯度，BRACE 在成功率和轨迹效率方面均显著优于以往的 “两阶段” 流程，尤其在目标模糊或环境受限的任务中表现突出。

关键贡献

端到端梯度流 在贝叶斯意图推断和策略学习之间，实现无需手动调节混合比例。
理论分析 表明 (1) 辅助程度应与目标不确定性成反比、与环境约束严重程度成正比，且 (2) 联合优化相较于顺序设计在期望后悔上具有二次优势。
BRACE 架构 将机器人策略条件化于完整的目标概率分布以及学习得到的环境上下文编码。
全面的实证评估 在三个日益复杂的基准上（2‑D 光标、7‑DOF 手臂、完整操作）展示相较于最先进基线提升最高 41 % 的路径效率和 6.3 % 的任务成功率。
通用性：相同的模型和训练流水线可在不同机器人平台之间迁移，无需针对任务进行重新设计。

方法论

贝叶斯意图推断 – 一种概率模型维护对可能用户目标的分布，并从嘈杂的控制输入（例如摇杆或鼠标移动）中在线更新该分布。
上下文编码器 – 一个轻量级神经网络将原始感官数据（障碍物地图、关节状态）处理成紧凑的上下文向量。
辅助策略 – 一个强化学习（RL）策略接收拼接后的信念向量和上下文编码，并输出混合控制指令。关键在于，RL 目标（任务成功、轨迹长度）的损失会反向传播穿过信念模块，使得意图估计器能够感知其预测对下游辅助的影响。
训练循环 – 通过采样“虚拟用户”策略生成模拟的人在回路（human‑in‑the‑loop）情节。整个管线使用标准的策略梯度方法（例如 PPO）进行优化，而贝叶斯信念更新由于重参数化技巧仍保持可微分。

该设计保持系统的模块化（信念和上下文组件可以互换），但在训练期间将它们绑定在一起，这正是核心创新之处。

结果与发现

基准	指标	BRACE vs. IDA/DQN	未辅助基线
2‑D 光标（目标歧义）	成功率	+6.3 %	–
2‑D 光标	路径效率（更短轨迹）	+41 %	–
7‑DOF 机械臂（非线性动力学）	成功率	+6.3 %	–
完整操作（障碍丰富）	成功率	+36.3 %	–
完整操作	路径效率	+87 %	–

不确定性感知辅助：当信念分布平坦（不确定性高）时，策略会自动降低辅助力度，让用户更多地自行操控。随着信念逐渐集中，辅助力度随之提升。
约束感知辅助：在杂乱的场景中，策略学会提供更强的纠正力，以使机器人远离障碍物，验证了理论预测。
二次后悔优势：实验表明，联合训练将期望后悔降低约 2 倍，相比于顺序的“推断‑再‑辅助”基线，吻合作者的分析界限。

实际影响

即插即用的共享自治：开发者可以将 BRACE 集成到现有的遥操作堆栈中，几乎无需修改代码——只需用提供的策略网络替换静态混合模块。
降低调参负担：无需手工制作混合曲线或置信阈值；系统从数据中学习最优的仲裁策略。
提升用户体验：当系统不确定时，用户保持自主权；当环境需要时，系统提供更强的帮助，从而实现更流畅的协作并降低认知负荷。
跨领域适用性：由于上下文编码器对机器人运动学无关，BRACE 可在无人机、机械臂或辅助外骨骼等平台上复用，仅需少量再训练。
安全即设计：学习得到的辅助遵循环境约束，可用于满足行业安全标准（例如协作机器人 ISO 10218）。

限制与未来工作

Simulation‑centric validation：实验依赖合成的“虚拟用户”；需要真实世界的用户研究来确认对人类变异性的鲁棒性。
Scalability of belief space：在大规模目标集合上维护完整的概率分布可能会导致计算负担加重；可以探索近似的 belief 表示（例如 particle filters）。
Explainability：端到端的策略是一个 black‑box 神经网络，难以审计为何选择了特定的辅助水平——未来工作可以加入可解释的 attention 机制。
Multi‑user scenarios：将 BRACE 扩展至处理来自多个操作者的同步输入（例如 collaborative tele‑operation）仍是一个未解决的挑战。

总体而言，BRACE 将 shared autonomy 推向真正自适应、data‑driven 的辅助，为开发者构建更直观的人机协作提供了实用路径。

作者

MH Farhadi
Ali Rabiee
Sima Ghafoori
Anna Cetera
Andrew Fisher
Reza Abiri

论文信息

arXiv ID: 2601.23285v1
分类: cs.RO, cs.AI, cs.HC, cs.LG
发表时间: 2026年1月30日
PDF: 下载 PDF

[论文] 共享自治范式中信念与策略学习的端到端优化

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像