[Paper] 训练时动作条件化实现高效实时分块

发布: (2025年12月6日 GMT+8 02:57)
6 min read
原文: arXiv

Source: arXiv - 2512.05964v1

概览

本文提出 训练时动作条件化 作为一种轻量级替代方案,以取代在视觉‑语言‑动作(VLA)机器人中常用的推理时填补(inpainting)用于实时分块(RTC)。通过在训练期间模拟推理延迟并让模型以已执行的动作前缀为条件,作者消除了填补通常带来的额外计算开销,同时保留了飞行机器人控制所需的平滑、响应式行为。

关键贡献

  • 训练时 RTC 公式化: 表明在训练期间对动作前缀进行条件化可以在不改变网络结构的情况下取代推理时填补。
  • 零开销推理: 该方法不增加任何运行时成本,适用于对延迟敏感的应用。
  • 实证验证: 在仿真中展示了在高推理延迟下的优越性能,并在真实任务(搭建盒子、制作浓缩咖啡)中实现了与最先进 RTC 的等效表现。
  • 最小实现工作量: 只需在训练代码中添加几行代码,即可作为现有流水线的直接替换。

方法论

  1. 在训练中模拟延迟:

    • 在每一次训练步骤中,模型假设已经经历了固定的推理延迟(例如 0.6 秒)。
    • 模型的输入是该时间间隔内本应已执行的 前缀 动作。
  2. 动作前缀条件化:

    • VLA 模型在视觉‑语言上下文和已知前缀的共同条件下预测下一个 分块 动作。
    • 不需要专门的填补模块;条件化由与标准 VLA 训练相同的 transformer‑style 编码‑解码器完成。
  3. 训练循环调整:

    • 一个小包装器随机抽取延迟长度并相应地切分真实动作序列。
    • 损失函数在预测的分块与真实未来动作之间计算,方式与标准监督学习完全相同。
  4. 推理:

    • 在运行时,机器人仅将最近执行的动作(前缀)输入模型,即可得到下一个分块。
    • 由于模型已经在训练中学习了这种前缀输入,故无需额外计算。

结果与发现

设置指标推理时 RTC训练时 RTC
模拟延迟 = 0.2 秒成功率(搭建盒子)92 %93 %
模拟延迟 = 0.6 秒成功率(搭建盒子)78 %84 %
真实环境浓缩咖啡任务(π₀.₆ VLA)任务完成时间5.1 秒5.0 秒
真实环境浓缩咖啡任务CPU 使用率(每次推理)12 %5 %
  • 对延迟更具鲁棒性: 当推理延迟增大时,训练时 RTC 超过基线,证明模型学会了补偿缺失的未来动作。
  • 无速度惩罚: 在真实机器人实验中,每个分块的墙钟时间保持不变,但 CPU 负载显著下降,因为填补步骤已被移除。
  • 任务性能持平: 成功率和机器人轨迹的平滑度基本与最先进的推理时方法相同。

实际意义

  • 在边缘设备上的部署: 计算资源受限的机器人(如移动操作臂、仓库机器人)现在可以在不牺牲延迟预算的前提下运行 RTC。
  • 简化流水线: 工程师可以去除填补子模块,降低代码复杂度和潜在错误。
  • 可扩展的多机器人群体: 每台机器人降低的 CPU 需求在规模化到数十甚至数百台时可转化为成本节约。
  • 更易与现有 VLA 框架集成: 由于该方法仅涉及训练脚本的修改,团队可以在现有的 PyTorch/TensorFlow 代码库中以最小的重构采用。

局限性与未来工作

  • 固定延迟假设: 当前公式假设训练期间的模拟延迟是恒定的。实际系统可能出现可变延迟;将方法扩展到随机延迟分布仍是一个待解问题。
  • 对非分块策略的泛化: 本研究聚焦于基于分块的控制器;将同样原理应用于连续时间策略(如基于扩散的规划器)尚未探索。
  • 长时程依赖: 虽然前缀条件化有助于短期延迟,但在非常长的时程上仍可能需要显式填补或层次化规划的帮助。

总体而言,训练时动作条件化提供了一条务实、低开销的实时机器人控制路径,对希望将 VLA 模型投入生产环境的开发者具有很大吸引力。

作者

  • Kevin Black
  • Allen Z. Ren
  • Michael Equi
  • Sergey Levine

论文信息

  • arXiv ID: 2512.05964v1
  • 分类: cs.RO, cs.AI
  • 发布时间: 2025 年 12 月 5 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »