[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

发布: 3天前 (2026年2月20日 GMT+8 02:59)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.17659v1

Overview

Vision‑Language‑Action (VLA) models are the backbone of robots that can follow natural‑language commands, but they often “cheat” by relying on visual shortcuts learned from biased datasets. This paper introduces LIBERO‑CF, the first benchmark that deliberately flips language instructions while keeping the visual scene plausible, exposing how often VLAs ignore the spoken intent. The authors also propose a lightweight inference add‑on—Counterfactual Action Guidance (CAG)—that dramatically cuts these failures without retraining the underlying model.

概述

视觉‑语言‑动作（VLA）模型是能够遵循自然语言指令的机器人核心，但它们常常通过依赖从偏置数据集中学习到的视觉捷径而“作弊”。本文引入了 LIBERO‑CF，这是第一个有意颠倒语言指令但保持视觉场景合理的基准，揭示了 VLA 忽视口头意图的频率。作者还提出了一种轻量级推理插件——反事实动作引导（CAG），在无需重新训练底层模型的情况下显著降低这些失败。

关键贡献

LIBERO‑CF 基准：一个反事实测试套件，将每个机器人场景与替代、矛盾的语言指令配对，量化“语言遵循准确率”。
系统性诊断 最先进的视觉语言代理（VLA），显示即使是表现最好的模型也普遍存在反事实失败。
反事实动作引导 (CAG)：一种双分支、无需训练的推理包装器，将标准 VLA 策略与语言无关的视觉‑动作（VA）策略进行比较，以检测并抑制基于捷径的动作。
即插即用兼容性：CAG 可与任何现有 VLA 架构或预训练权重一起使用——无需额外示例、微调或架构修改。
广泛的实证验证 在模拟的 LIBERO‑CF 任务和真实机器人设置上进行，报告在语言忠实度和整体任务成功率上均有一致提升。

方法论

反事实基准构建
- 从 LIBERO 机器人操作套件（各种物体布局、抓取/放置任务）开始。
- 对每个场景，生成一个备选自然语言指令，该指令在表面上合理但与原始目标相矛盾（例如 “捡起红色方块” → “推开蓝色方块”）。
- 保持视觉观察不变，迫使模型依赖语言而非视觉频率线索。
基线 VLA 评估
- 在原始指令和反事实指令上运行若干最新的 VLA 模型（例如基于 CLIP、基于 Transformer 的模型）。
- 测量两个指标：
  - π₀.₅（语言遵循准确率） – 与给定指令一致的动作比例。
  - 任务成功率 – 机器人是否完成预期的操作。
反事实动作引导（CAG）
- 双分支推理：
  - VLA 分支 – 基于视觉和语言的标准策略。
  - VA 分支 – 不受语言约束的仅视觉策略，预测在给定场景下最 “习惯性” 的动作。
- 反事实比较：在每个决策步骤，计算两条分支的动作分布。如果 VLA 的最高动作与 VA 的显著偏离（即 VA 对某个捷径动作非常自信），CAG 会降低该动作的权重，并选择下一个更符合语言的 VLA 动作。
- 不需要额外的训练数据；VA 模型可以是冻结的检查点，甚至是一个简单的启发式控制器。
集成与评估
- 将 CAG 接入每个 VLA 的推理流水线。
- 在 LIBERO‑CF 以及少量真实机器人平台上进行测试（例如使用 Franka 手臂的桌面抓放任务）。

结果与发现

模型	基线 π₀.₅	CAG（免训练） π₀.₅	CAG + VA π₀.₅	基线成功率	CAG（免训练）成功率	CAG + VA 成功率
VLA‑A	62.1 %	71.8 % (+9.7 %)	77.6 % (+15.5 %)	68.3 %	71.9 % (+3.6 %)	76.8 % (+8.5 %)

反事实失败 在所有基线的未观察任务中超过 40 % 被观察到。
CAG（免训练） 已经在语言遵循准确率上实现了两位数的提升，证明许多错误来源于推理偏差而非模型容量。
添加一个适度的 VA 模块（仅在视觉示例上训练）进一步提升了增益。
真实世界测试：平均反事实失败率从 9.4 % 降至 2.1 %，整体任务成功率提升了 17.2 %。

结论：一个简单的推理时检查可以显著提升机器人对语言的服从性，而无需昂贵的数据收集或模型重新设计。

实际意义

Plug‑and‑play safety layer：开发者可以将任何现有的 VLA 与 CAG 包装在一起，添加“语言合理性检查”，降低机器人对错误对象执行操作的风险——这对协作机器人（cobot）来说是关键的安全问题。
Cost‑effective robustness：由于 CAG 不需要额外的示例，团队可以在不扩展数据管道的情况下提升已部署系统的鲁棒性。
Debugging tool：双分支输出能够突出模型依赖视觉捷径的情况，为工程师提供可操作的关于数据集偏差的洞察。
Transfer to other modalities：相同的反事实比较思路可以应用于多模态助手（例如视觉‑语言聊天机器人），以防止出现幻觉式的动作指令。
Benchmark adoption：LIBERO‑CF 提供了一个即用的压力测试，可在发布前对任何 VLA 产品进行语言合规性检查，确保在模糊视觉条件下的表现。

限制与未来工作

反事实范围：LIBERO‑CF 专注于以对象为中心的操作；更复杂的任务（例如工具使用、多步骤配方）仍未测试。
视觉代理质量依赖：虽然 CAG 可以在冻结的仅视觉策略下工作，但其效果取决于视觉代理对常见捷径的捕获程度；训练不足的视觉代理模型可能会引入噪声。
延迟开销：运行两个推理分支会使运行时计算量翻倍，这对于超低延迟的边缘机器人可能是不可接受的。优化（例如共享视觉编码器）留待未来工程实现。
理论保证：论文提供了实证证据，但没有关于可以消除多少反事实偏差的正式界限。对底层分布转移的更深入分析是一个未解的研究方向。

总体而言，这项工作揭示了机器人语言对齐中的一个隐藏失效模式，并提供了一个务实且可立即使用的修复方案——使视觉语言代理（VLA）在真实世界部署中更安全、更可信。

作者

Yu Fang
Yuchun Feng
Dong Jing
Jiaqi Liu
Yue Yang
Zhenyu Wei
Daniel Szafir
Mingyu Ding

论文信息

arXiv ID: 2602.17659v1
分类: cs.CV, cs.RO
发表时间: 2026年2月19日
PDF: 下载 PDF

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

Overview

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

人类水平的 3D 形状感知源于多视图学习

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

[Paper] IntRec：基于意图的检索与对比式细化