[论文] ImplicitRDP:端到端视觉‑力扩散策略,结构化慢快学习

发布: (2025年12月12日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.10946v1

概览

本文提出 ImplicitRDP,一种单网络扩散策略,将视觉感知与力反馈融合用于接触丰富的机器人操作。作者将视觉视为“慢速”全局线索,力视为“快速”局部线索,设计了一种学习方案,使机器人能够在高力传感器频率下实时响应,同时仍能规划连贯的运动序列——这一进展有望让机器人手在真实世界的装配、插入和搬运任务中更加可靠。

关键贡献

  • 统一的视觉‑力扩散策略,取代了常见的两阶段(视觉规划 + 力控制)流水线。
  • 结构化慢‑快学习:一种因果注意机制,在同一 Transformer 中处理异步的视觉 token(低速)和力 token(高速),在保持动作块时间一致性的同时实现快速的力级校正。
  • 虚拟目标表示正则化:一种辅助损失,将力反馈映射到与机器人动作相同的潜在空间,防止网络忽视力模态(模态坍塌)。
  • 端到端训练,直接使用原始 RGB‑D 与力流,无需手工特征工程或独立控制器。
  • 实证验证 在多个接触丰富的基准任务(孔插、抽屉打开、线缆布线)上显示出相较于仅视觉和层次化基线更高的成功率和更低的延迟。

方法论

1. 数据表示

  • 视觉 token:从短视频片段(例如 5 Hz)中使用预训练 CNN 编码器提取。
  • 力 token:以原始传感器频率(≈100 Hz)采样,并通过轻量级 MLP 嵌入。

2. 慢‑快 Transformer

  • 模型堆叠两路 token。
  • 因果注意 确保每个力 token 能关注所有过去的视觉 token,但不能关注未来的 token,既保留“慢”上下文,又允许“快”响应更新。
  • Transformer 输出 扩散潜在向量,随后被去噪为机器人关节动作序列(动作块)。

3. 扩散策略

  • 标准去噪扩散概率模型(DDPM)从噪声潜在样本生成平滑的动作轨迹。
  • 扩散过程以组合的视觉‑力表征为条件,使策略能够采样兼顾全局几何和瞬时接触力的动作。

4. 虚拟目标正则化

  • 一个辅助网络从力嵌入预测“虚拟目标”向量;该向量通过 L2 损失强制与扩散解码器产生的动作嵌入对齐。
  • 正则项提供了基于物理的梯度,促使策略真正利用力信息,而不是忽略它。

5. 训练

  • 收集的演示(视觉 + 力)联合训练整个系统,使用三种损失:扩散重建、力‑到‑动作正则化,以及用于潜在稳定性的小 KL 项。
  • 无需对力控制器进行单独的微调。

结果与发现

任务成功率 (ImplicitRDP)仅视觉基线层次化(视觉 + 力)
紧配合孔插 (tight tolerance)92 %68 %81 %
抽屉打开(可变摩擦)88 %55 %73 %
线缆布线(动态障碍)84 %60 %77 %
  • 响应速度:ImplicitRDP 在约 10 ms 内对力突峰作出反应,比仅视觉规划器(≈100 ms)快一个数量级。
  • 平滑性:扩散解码器产生低抖动轨迹,降低硬件磨损。
  • 消融实验:去除虚拟目标正则化会使成功率下降约 10 %,且模型倾向忽视力输入;关闭因果注意会导致力校正不稳定。

总体而言,统一的策略在性能上超越了单模态和分阶段方法,同时简化了训练流程。

实际意义

  • 简化堆栈:开发者可以用单一模型取代复杂的层次结构(视觉规划 → 力控制),降低集成工作量和延迟。
  • 即插即用传感器:该架构兼容任何现成的 RGB‑D 相机和标准 6‑DoF 力/扭矩传感器,适用于已有的机器人臂。
  • 更高吞吐量:更快的响应回路缩短了装配线的循环时间,尤其适用于插入、紧固或表面抛光等接触动力学占主导的任务。
  • 对变异性的鲁棒性:由于策略学习了全局上下文与局部接触线索的融合,对零件公差、表面光洁度和意外扰动的适应性更强——这对柔性制造和服务机器人至关重要。
  • 开源发布:作者承诺提供代码和演示视频,便于行业实验室快速原型和基准测试。

局限性与未来工作

  • 传感器依赖:方法假设力数据同步且低延迟;噪声大或延迟的力数据可能导致性能下降。
  • Token 长度的可扩展性:极长的视觉历史会显著增加 Transformer 的内存消耗,当前实现将视觉 token 窗口限制在几秒内。
  • 对新任务的泛化:虽然模型在所测试任务间迁移良好,但对全新接触动力学(如软体物体操作)的零样本适应仍是未解问题。
  • 未来方向:作者建议探索多模态扩展(如触觉阵列)、用于更长时域的层次化扩散,以及基于课程的采集策略以进一步提升鲁棒性。

作者

  • Wendi Chen
  • Han Xue
  • Yi Wang
  • Fangyuan Zhou
  • Jun Lv
  • Yang Jin
  • Shirun Tang
  • Chuan Wen
  • Cewu Lu

论文信息

  • arXiv ID: 2512.10946v1
  • 分类: cs.RO, cs.AI, cs.LG
  • 发表时间: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »