[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

发布: 3天前 (2026年2月13日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.12281v1

概述

本文从一个新角度探讨提升视觉‑语言‑动作（VLA）系统的方法：作者并未通过投入更多计算资源来训练更大的策略，而是聚焦于 测试时验证，以缩小用户意图与机器人实际行为之间的差距。通过生成指令的多种重新表述以及多个候选动作，然后使用学习得到的验证器挑选最佳匹配，他们在多个指令跟随基准测试和真实机器人任务上实现了显著的性能提升。

关键贡献

测试时多样性的尺度定律 – 表明同时增加指令重述的数量以及动作候选的数量，比单独扩展任一维度能产生更多有用的样本。
CoVer（对比验证器） – 一种模块化的验证器架构，用于对 (视觉、语言、动作) 三元组的一致性进行打分，并能随额外数据和计算资源平滑扩展。
启动时计算与层次推理流水线 – 预先使用视觉语言模型 (VLM) 生成丰富的重述提示集合，然后在部署时迭代生成低层次动作块并选择最优的高层提示。
实证提升 – 在 SIMPLER 基准上，基于验证的推理相较于纯策略扩展提升 22 %（分布内） 和 13 %（分布外）；在真实机器人实验中提升达到 45 %。在 PolaRiS 基准上也报告了类似提升（任务进度提升 14 %，成功率提升 9 %）。

方法论

Instruction Diversification – 使用大规模 VLM（例如 GPT‑4‑style）离线生成原始自然语言指令的众多改写。此“boot‑time compute”步骤每个任务执行一次，并存储以便快速查找。
Action Candidate Generation – 对于每个改写，VLA 策略（例如基于 transformer 的规划器）采样多个高级提示和低级运动原语，创建一个 grid 的 (prompt, action) 对。
Contrastive Verification (CoVer) – CoVer 接收三个输入：当前视觉观测、候选语言提示以及候选动作序列。它学习一个联合嵌入，使得正确对齐的三元组被拉近，错误对齐的被拉远，使用对比损失在大规模 (observation, instruction, action) 三元组数据集上进行训练。
Hierarchical Selection – 推理时，CoVer 为所有生成的三元组打分，首先挑选最佳的高级提示，然后挑选随后对应的最佳低级动作块。选定的计划在机器人上执行。
Scaling Experiments – 作者系统性地改变改写数量 (Nₚ) 和每个改写的动作候选数 (Nₐ)，以经验方式推导出规模定律：性能 ≈ f(Nₚ × Nₐ)，证实联合扩展远比单独扩展任一因素更高效。

结果与发现

基准	指标	仅策略缩放	验证（CoVer）	相对提升
SIMPLER（内部分布）	成功率	58 %	71 %	+22 %
SIMPLER（外部分布）	成功率	44 %	57 %	+13 %
真实机器人任务	任务完成率	40 %	58 %	+45 %
PolaRiS	任务进度	0.62	0.71	+14 %
PolaRiS	成功率	0.48	0.57	+9 %

联合缩放获胜：将 Nₚ 和 Nₐ 同时加倍，带来的性能提升超过单独加倍任一因素的两倍。
验证器效率：CoVer 的推理成本随候选数量线性增长，结合预计算的同义句，可实现设备端部署的实用性。
鲁棒性：即使面对分布外的语言或视觉变化，验证流水线仍能保持收益，表明其相较于仅增大策略的泛化能力更佳。

实际意义

Developer-friendly API：层次化流水线可以封装为 “generate‑and‑verify” 服务，让机器人团队能够直接接入任何已有的 VLA 策略，而无需从头重新训练。
Cost‑effective scaling：与其在策略预训练上消耗大量 GPU 时长，团队可以一次性投入 “boot‑time compute” 步骤（生成改写），随后仅使用适度的推理计算进行验证，从而实现相当或更好的性能。
Improved safety and reliability：通过在执行前显式检查对齐程度，机器人更不容易产生意外行为，这对于在家庭、仓库或协作环境中的部署至关重要。
Modular upgrades：CoVer 可以替换为更新的对比模型（例如基于 CLIP 或多模态 Transformer 的模型），而无需改动底层策略，实现持续改进。
Cross‑domain applicability：相同的验证概念同样适用于其他具身 AI 任务，如自动驾驶、无人机导航或基于视觉输入的虚拟助理。

局限性与未来工作

推理时的计算成本：虽然验证比完整的策略扩展更便宜，但仍需评估大量候选三元组，这在功耗极低的边缘设备上可能难以实现。
对改写质量的依赖：该方法假设视觉语言模型（VLM）能够生成多样且语义忠实的改写；若此步骤失败，会限制验证的有效性。
数据集偏差：对比验证器是在与评估相同分布的任务上训练的；在全新领域（例如工业操作）上的表现仍需检验。
作者提出的未来方向包括：
1. 学习 自适应剪枝，根据早期验证器得分削减候选集合。
2. 融入 在线学习，使验证器能够从真实执行反馈中改进。
3. 将框架扩展到多机器人协同场景，在多个机器人之间同时进行对齐验证。

作者

Jacky Kwok
Xilun Zhang
Mengdi Xu
Yuejiang Liu
Azalia Mirhoseini
Chelsea Finn
Marco Pavone

论文信息

arXiv ID: 2602.12281v1
分类: cs.RO, cs.AI, eess.SY
发表时间: 2026年2月12日
PDF: 下载 PDF

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用

[Paper] T3D：通过轨迹自蒸馏与直接判别优化实现少步 Diffusion 语言模型