[论文] ImplicitRDP:端到端视觉‑力扩散策略,结构化慢快学习
发布: (2025年12月12日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.10946v1
概览
本文提出 ImplicitRDP,一种单网络扩散策略,将视觉感知与力反馈融合用于接触丰富的机器人操作。作者将视觉视为“慢速”全局线索,力视为“快速”局部线索,设计了一种学习方案,使机器人能够在高力传感器频率下实时响应,同时仍能规划连贯的运动序列——这一进展有望让机器人手在真实世界的装配、插入和搬运任务中更加可靠。
关键贡献
- 统一的视觉‑力扩散策略,取代了常见的两阶段(视觉规划 + 力控制)流水线。
- 结构化慢‑快学习:一种因果注意机制,在同一 Transformer 中处理异步的视觉 token(低速)和力 token(高速),在保持动作块时间一致性的同时实现快速的力级校正。
- 虚拟目标表示正则化:一种辅助损失,将力反馈映射到与机器人动作相同的潜在空间,防止网络忽视力模态(模态坍塌)。
- 端到端训练,直接使用原始 RGB‑D 与力流,无需手工特征工程或独立控制器。
- 实证验证 在多个接触丰富的基准任务(孔插、抽屉打开、线缆布线)上显示出相较于仅视觉和层次化基线更高的成功率和更低的延迟。
方法论
1. 数据表示
- 视觉 token:从短视频片段(例如 5 Hz)中使用预训练 CNN 编码器提取。
- 力 token:以原始传感器频率(≈100 Hz)采样,并通过轻量级 MLP 嵌入。
2. 慢‑快 Transformer
- 模型堆叠两路 token。
- 因果注意 确保每个力 token 能关注所有过去的视觉 token,但不能关注未来的 token,既保留“慢”上下文,又允许“快”响应更新。
- Transformer 输出 扩散潜在向量,随后被去噪为机器人关节动作序列(动作块)。
3. 扩散策略
- 标准去噪扩散概率模型(DDPM)从噪声潜在样本生成平滑的动作轨迹。
- 扩散过程以组合的视觉‑力表征为条件,使策略能够采样兼顾全局几何和瞬时接触力的动作。
4. 虚拟目标正则化
- 一个辅助网络从力嵌入预测“虚拟目标”向量;该向量通过 L2 损失强制与扩散解码器产生的动作嵌入对齐。
- 正则项提供了基于物理的梯度,促使策略真正利用力信息,而不是忽略它。
5. 训练
- 收集的演示(视觉 + 力)联合训练整个系统,使用三种损失:扩散重建、力‑到‑动作正则化,以及用于潜在稳定性的小 KL 项。
- 无需对力控制器进行单独的微调。
结果与发现
| 任务 | 成功率 (ImplicitRDP) | 仅视觉基线 | 层次化(视觉 + 力) |
|---|---|---|---|
| 紧配合孔插 (tight tolerance) | 92 % | 68 % | 81 % |
| 抽屉打开(可变摩擦) | 88 % | 55 % | 73 % |
| 线缆布线(动态障碍) | 84 % | 60 % | 77 % |
- 响应速度:ImplicitRDP 在约 10 ms 内对力突峰作出反应,比仅视觉规划器(≈100 ms)快一个数量级。
- 平滑性:扩散解码器产生低抖动轨迹,降低硬件磨损。
- 消融实验:去除虚拟目标正则化会使成功率下降约 10 %,且模型倾向忽视力输入;关闭因果注意会导致力校正不稳定。
总体而言,统一的策略在性能上超越了单模态和分阶段方法,同时简化了训练流程。
实际意义
- 简化堆栈:开发者可以用单一模型取代复杂的层次结构(视觉规划 → 力控制),降低集成工作量和延迟。
- 即插即用传感器:该架构兼容任何现成的 RGB‑D 相机和标准 6‑DoF 力/扭矩传感器,适用于已有的机器人臂。
- 更高吞吐量:更快的响应回路缩短了装配线的循环时间,尤其适用于插入、紧固或表面抛光等接触动力学占主导的任务。
- 对变异性的鲁棒性:由于策略学习了全局上下文与局部接触线索的融合,对零件公差、表面光洁度和意外扰动的适应性更强——这对柔性制造和服务机器人至关重要。
- 开源发布:作者承诺提供代码和演示视频,便于行业实验室快速原型和基准测试。
局限性与未来工作
- 传感器依赖:方法假设力数据同步且低延迟;噪声大或延迟的力数据可能导致性能下降。
- Token 长度的可扩展性:极长的视觉历史会显著增加 Transformer 的内存消耗,当前实现将视觉 token 窗口限制在几秒内。
- 对新任务的泛化:虽然模型在所测试任务间迁移良好,但对全新接触动力学(如软体物体操作)的零样本适应仍是未解问题。
- 未来方向:作者建议探索多模态扩展(如触觉阵列)、用于更长时域的层次化扩散,以及基于课程的采集策略以进一步提升鲁棒性。
作者
- Wendi Chen
- Han Xue
- Yi Wang
- Fangyuan Zhou
- Jun Lv
- Yang Jin
- Shirun Tang
- Chuan Wen
- Cewu Lu
论文信息
- arXiv ID: 2512.10946v1
- 分类: cs.RO, cs.AI, cs.LG
- 发表时间: 2025 年 12 月 11 日
- PDF: Download PDF