[论文] ImplicitRDP：端到端视觉‑力扩散策略，结构化慢快学习

发布: 1个月前 (2025年12月12日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10946v1

概览

本文提出 ImplicitRDP，一种单网络扩散策略，将视觉感知与力反馈融合用于接触丰富的机器人操作。作者将视觉视为“慢速”全局线索，力视为“快速”局部线索，设计了一种学习方案，使机器人能够在高力传感器频率下实时响应，同时仍能规划连贯的运动序列——这一进展有望让机器人手在真实世界的装配、插入和搬运任务中更加可靠。

关键贡献

统一的视觉‑力扩散策略，取代了常见的两阶段（视觉规划 + 力控制）流水线。
结构化慢‑快学习：一种因果注意机制，在同一 Transformer 中处理异步的视觉 token（低速）和力 token（高速），在保持动作块时间一致性的同时实现快速的力级校正。
虚拟目标表示正则化：一种辅助损失，将力反馈映射到与机器人动作相同的潜在空间，防止网络忽视力模态（模态坍塌）。
端到端训练，直接使用原始 RGB‑D 与力流，无需手工特征工程或独立控制器。
实证验证 在多个接触丰富的基准任务（孔插、抽屉打开、线缆布线）上显示出相较于仅视觉和层次化基线更高的成功率和更低的延迟。

方法论

1. 数据表示

视觉 token：从短视频片段（例如 5 Hz）中使用预训练 CNN 编码器提取。
力 token：以原始传感器频率（≈100 Hz）采样，并通过轻量级 MLP 嵌入。

2. 慢‑快 Transformer

模型堆叠两路 token。
因果注意 确保每个力 token 能关注所有过去的视觉 token，但不能关注未来的 token，既保留“慢”上下文，又允许“快”响应更新。
Transformer 输出 扩散潜在向量，随后被去噪为机器人关节动作序列（动作块）。

3. 扩散策略

标准去噪扩散概率模型（DDPM）从噪声潜在样本生成平滑的动作轨迹。
扩散过程以组合的视觉‑力表征为条件，使策略能够采样兼顾全局几何和瞬时接触力的动作。

4. 虚拟目标正则化

一个辅助网络从力嵌入预测“虚拟目标”向量；该向量通过 L2 损失强制与扩散解码器产生的动作嵌入对齐。
正则项提供了基于物理的梯度，促使策略真正利用力信息，而不是忽略它。

5. 训练

收集的演示（视觉 + 力）联合训练整个系统，使用三种损失：扩散重建、力‑到‑动作正则化，以及用于潜在稳定性的小 KL 项。
无需对力控制器进行单独的微调。

结果与发现

任务	成功率 (ImplicitRDP)	仅视觉基线	层次化（视觉 + 力）
紧配合孔插 (tight tolerance)	92 %	68 %	81 %
抽屉打开（可变摩擦）	88 %	55 %	73 %
线缆布线（动态障碍）	84 %	60 %	77 %

响应速度：ImplicitRDP 在约 10 ms 内对力突峰作出反应，比仅视觉规划器（≈100 ms）快一个数量级。
平滑性：扩散解码器产生低抖动轨迹，降低硬件磨损。
消融实验：去除虚拟目标正则化会使成功率下降约 10 %，且模型倾向忽视力输入；关闭因果注意会导致力校正不稳定。

总体而言，统一的策略在性能上超越了单模态和分阶段方法，同时简化了训练流程。

实际意义

简化堆栈：开发者可以用单一模型取代复杂的层次结构（视觉规划 → 力控制），降低集成工作量和延迟。
即插即用传感器：该架构兼容任何现成的 RGB‑D 相机和标准 6‑DoF 力/扭矩传感器，适用于已有的机器人臂。
更高吞吐量：更快的响应回路缩短了装配线的循环时间，尤其适用于插入、紧固或表面抛光等接触动力学占主导的任务。
对变异性的鲁棒性：由于策略学习了全局上下文与局部接触线索的融合，对零件公差、表面光洁度和意外扰动的适应性更强——这对柔性制造和服务机器人至关重要。
开源发布：作者承诺提供代码和演示视频，便于行业实验室快速原型和基准测试。

局限性与未来工作

传感器依赖：方法假设力数据同步且低延迟；噪声大或延迟的力数据可能导致性能下降。
Token 长度的可扩展性：极长的视觉历史会显著增加 Transformer 的内存消耗，当前实现将视觉 token 窗口限制在几秒内。
对新任务的泛化：虽然模型在所测试任务间迁移良好，但对全新接触动力学（如软体物体操作）的零样本适应仍是未解问题。
未来方向：作者建议探索多模态扩展（如触觉阵列）、用于更长时域的层次化扩散，以及基于课程的采集策略以进一步提升鲁棒性。

作者

Wendi Chen
Han Xue
Yi Wang
Fangyuan Zhou
Jun Lv
Yang Jin
Shirun Tang
Chuan Wen
Cewu Lu

论文信息

arXiv ID: 2512.10946v1
分类: cs.RO, cs.AI, cs.LG
发表时间: 2025 年 12 月 11 日
PDF: Download PDF

[论文] ImplicitRDP：端到端视觉‑力扩散策略，结构化慢快学习

概览

关键贡献

方法论

1. 数据表示

2. 慢‑快 Transformer

3. 扩散策略

4. 虚拟目标正则化

5. 训练

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型