[Paper] EVOLVE-VLA: 基于环境反馈的测试时训练用于视觉-语言-动作模型

发布: (2025年12月17日 GMT+8 02:26)
6 min read
原文: arXiv

Source: arXiv - 2512.14666v1

概述

本文介绍了 EVOLVE‑VLA,一种测试时训练(TTT)框架,使视觉‑语言‑动作(VLA)代理在与环境交互时持续学习。该系统不依赖数百个人工制作的示例,而是使用自动学习的“进度估计器”生成密集反馈,使机器人能够在运行时即时优化策略,并应对新颖或分布转移的情况。

关键贡献

  • Test‑time training for VLA models – 首个在部署期间对 VLA 策略进行适配的框架,无需任何特定任务的示范。
  • Learned progress estimator – 一个神经模块,用于预测智能体离完成目标还有多近,提供代理奖励信号。
  • Noise‑robust adaptation mechanisms:
    1. Accumulative progress estimation – 对噪声较大的逐点预测进行时间上的平滑。
    2. Progressive horizon extension – 逐步延长规划视野,使策略更新保持稳定。
  • Empirical gains: 在长时程任务上成功率提升 8.6 %,单次学习提升 22 %,在完全未见任务上的成功率达到 20.8 %(相较于普通监督微调的 0 %)。
  • Emergent behaviors – 适配后的智能体展现出错误恢复和全新操作策略,这些在原始示范中从未出现。

方法论

  1. Base VLA model – 预训练的视觉‑语言骨干网络(例如 CLIP + LLM),将语言指令和视觉观测映射为动作 logits。
  2. Progress estimator – 离线训练的轻量网络,用于根据当前状态和目标描述预测一个标量“进度”值。在部署时它取代缺失的外部奖励。
  3. Accumulative smoothing – 与其在每一步使用原始估计器输出,系统维护一个滚动平均(或指数移动平均),以抑制感知噪声或瞬时失效导致的尖峰。
  4. Progressive horizon extension:
    • 从短规划视野(例如 5 步)开始,此时策略可以安全更新。
    • 在几次成功的 rollout 之后,逐步延长视野,使策略在仍受平滑进度信号引导的情况下探索更长的序列。
  5. Online policy update – 使用简单的策略梯度或 actor‑critic 损失函数,最大化累计的进度估计,智能体在每个 episode 后微调权重,实质上在测试时“从自身经验中学习”。

结果与发现

设置成功率(基线)成功率(EVOLVE‑VLA)增益
长期操作(≥10 步)42 %50.6 %+8.6 %
单次学习(单示例)31 %53 %+22 %
零示例,未见任务0 %20.8 %
  • 定性: 代理在抓取失败时学会回溯,重新规划替代的物体放置位置,甚至以未示范的方式组合子任务。
  • 消融实验: 移除累积估计器会使性能下降约 5 %;跳过视野扩展会使长期增益减少约 3 %。

实际意义

  • 降低数据收集成本 – 开发者可以发布只需少量示例即可改进的机器人,从而削减昂贵的“每任务一次示例”流程。
  • 对领域转移的鲁棒性 – 当光照、物体纹理或工作空间布局变化时,智能体能够自我调整,而不是直接失效。
  • 持续部署 – 连接云端的机器人可以推送基于设备上经验的周期性策略更新,实现全车队学习,而无需中心重新训练。
  • 即插即用集成 – 进度估计器是对现有 VLA 堆栈的轻量封装,这意味着团队可以在最小的架构改动下采用 EVOLVE‑VLA。
  • 安全感知的适应 – 由于反馈密集且平滑,系统能够避免灾难性的策略剧变,这对于真实世界的操作至关重要。

局限性与未来工作

  • 估计器偏差 – 学习到的进度信号仍可能在高度模糊的场景中误判进度,导致次优更新。
  • 计算开销 – 在线策略梯度会增加延迟;要扩展到高频控制回路可能需要更高效的优化器。
  • 任务范围 – 实验聚焦于桌面操作;将其扩展到行走或多机器人协同仍是未解之题。
  • 理论保证 – 论文未提供测试时训练循环的收敛性证明,正式的稳定性分析留待未来研究。

总体而言,EVOLVE‑VLA 展示了视觉‑语言‑动作代理能够超越静态模仿,开始从其所处的世界中持续学习——这对构建可适应的真实世界 AI 系统的开发者而言是一个有前景的方向。

作者

  • Zechen Bai
  • Chen Gao
  • Mike Zheng Shou

论文信息

  • arXiv ID: 2512.14666v1
  • 分类: cs.RO, cs.CV
  • 出版日期: 2025年12月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »