[Paper] 多模态不确定性下稳健灵巧抓取的变分神经信念参数化
发布: (2026年4月29日 GMT+8 01:40)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.25897v1
概述
本文解决了机器人操作中的核心挑战:在接触条件、传感器读数和外部力高度不确定的情况下可靠抓取物体。通过将抓取规划视为变分推断问题,作者用可微分的高斯混合表示取代了昂贵的粒子滤波信念更新,从而实现了对风险感知目标(如 Conditional Value‑at‑Risk (CVaR))的快速梯度优化。其结果是一个控制器,既对最坏情况的接触结果更具鲁棒性,又比传统的模型预测方法显著更快。
关键贡献
- Variational Neural Belief: 引入一种可微分的高斯混合信念,用于潜在接触参数和物体姿态,通过变分推断学习。
- Differentiable CVaR Surrogate: 利用 Gumbel‑Softmax 组件选择和位置‑尺度重参数化,获得低方差、路径式梯度,通过 CVaR 代理实现直接的尾部风险优化。
- Speed‑up over Particle Filters: 与基于粒子滤波的模型预测控制 (MPC) 相比,展示出约 10× 的规划时间缩减。
- Improved Robustness: 在仿真中于接触参数不确定性和外部力扰动下显示更高的抓取成功率,并在真实多指手上获得更优的触觉质量评分。
- Better Risk Calibration: 实现平均绝对校准误差 < 0.14,而 CEM 规划器为 0.58,表明对失败概率的估计更可靠。
方法论
- 问题表述 – 抓取获取被视为一个 部分可观测马尔可夫决策过程 (POMDP),其中隐藏状态包括物体姿态和接触参数(例如摩擦、顺应性)。
- 变分信念表示 – 与使用粒子集合不同,信念被建模为 高斯混合模型,其参数(权重、均值、协方差)由一个小型神经网络在传感器数据的条件下输出。
- 重参数化技巧 –
- Gumbel‑Softmax 提供了一种可微分的方式来采样哪个混合分量是活跃的。
- 位置‑尺度重参数化 将高斯样本转换为混合参数的平滑函数。
这些技巧使得 可以对采样过程进行反向传播。
- 风险敏感目标 – 作者用 CVaR 代理 取代了常规的期望奖励,聚焦于最差 α 分位的结果。由于该代理是可微的,他们可以直接 使用随机梯度下降优化策略参数。
- 训练与执行 – 信念网络在离线的仿真抓取试验上使用变分推断目标进行训练。运行时,控制器执行少量梯度步骤来细化信念,并选择能够最小化 CVaR 估计的动作。
结果与发现
| 设置 | 基线(粒子滤波 MPC / CEM) | 变分神经信念 |
|---|---|---|
| 规划时间(仿真) | ~1.2 s 每个时域 | ~0.12 s(≈快 10 倍) |
| 在接触参数噪声下的成功率 | 71 % | 84 % |
| 在外部力扰动下的成功率 | 68 % | 81 % |
| 触觉抓取质量代理(数值越高越好) | 0.62 | 0.71 |
| 校准误差(MAE) | 0.58 | 0.14 |
| 真实机器人(串联臂 + 多指手)——终止步数 | 18 | 12 |
| 实际运行时间(真实机器人) | 4.3 s | 1.9 s |
变分信念不仅 提升了对随机接触效应的鲁棒性,而且 收敛更快,使其能够用于在线操作任务。
实际意义
- 更快部署:开发者可以将信念网络集成到现有的 ROS 流程中,而无需粒子滤波器的沉重计算负担,从而在普通硬件上实现近实时抓取规划。
- 风险感知自动化:需要高可靠性的行业(例如仓库拣选、外科手术机器人)可以受益于 CVaR 优化控制器,它明确防范罕见但灾难性的失效。
- 模块化感知‑控制回路:由于信念是神经模型,它可以 与视觉或触觉编码器联合训练,允许从原始传感器流进行端到端学习。
- 可扩展至复杂手部:该方法随着手指或接触点数量的增加而优雅扩展,因为信念的维度呈线性增长,而粒子集合会呈组合爆炸式增长。
- 更好的安全案例校准:准确的概率校准简化了安全案例的创建以及受监管机器人应用的合规文档编写。
限制与未来工作
- Simulation‑Heavy Validation: 大部分鲁棒性提升在仿真中展示;真实世界的变异性(例如光照、传感器漂移)可能暴露出不足。
- Fixed Mixture Size: Gaussian‑mixture belief 使用预先确定的组件数量,这可能限制对高度多模态接触分布的表达能力。
- Limited Action Space: 实验聚焦于抓取‑提升原语;扩展到完整的操作序列(重新抓取、手内操作)仍未解决。
- Scalability of Training: 训练 belief 网络需要大量仿真数据;未来工作可以探索 online adaptation 或 meta‑learning 以降低数据需求。
总体而言,本文呈现了 probabilistic reasoning 与 deep learning tricks 的引人注目的结合,使风险敏感抓取更接近实用的实时部署。对稳健操作感兴趣的开发者应关注这一变分 belief 范式的成熟与其在更广泛感知‑动作框架中的整合。
作者
- Clinton Enwerem
- Shreya Kalyanaraman
- John S. Baras
- Calin Belta
论文信息
- arXiv ID: 2604.25897v1
- 分类: cs.RO, cs.LG, eess.SY
- 出版时间: 2026年4月28日
- PDF: 下载 PDF