[Paper] 视觉语言动作启用机器人变形测试

发布: 3天前 (2026年2月26日 GMT+8 11:32)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.22579v1

概述

本文研究了 变形测试（Metamorphic Testing，MT） 如何用于评估视觉‑语言‑动作（Vision‑Language‑Action，VLA）机器人——即将自然语言指令和视觉输入转换为低层次运动动作的系统。由于 VLA 模型对每个测试用例缺乏明确的“真实答案”，传统的测试预言机难以定义。作者展示了精心构造的变形关系（Metamorphic Relations，MRs）能够在不需要显式预言机的情况下自动发现失败，从而使测试更加可扩展且与模型无关。

关键贡献

两类 MT 模式（输入扰动和输出不变）专为 VLA 机器人设计。
五条具体的变形关系，捕捉提示、视觉场景或机器人配置的变化应（或不应）如何影响生成的动作轨迹。
实证评估，覆盖五种最先进的 VLA 模型、两个仿真机器人平台和四个不同的操作任务。
演示 MT 能检测广泛的失败，包括任务未完成、不安全动作以及细微的性能下降，即使没有传统的 oracle。
证据表明所提出的 MR 与模型、机器人和任务无关，支持在未来 VLA 系统中的复用。

方法论

Define Metamorphic Patterns
- Input‑perturbation：在保持任务语义不变的前提下，修改自然语言指令（例如，同义词替换、顺序重排）或视觉场景（例如，物体颜色变化）。
- Output‑invariance：断言机器人轨迹的某些方面（例如，任务完成时末端执行器的姿态）在输入扰动下应保持不变。
Instantiate Five Metamorphic Relations (MRs)
- MR‑1：指令中的同义词替换不应改变最终物体姿态。
- MR‑2：添加无关的形容词（例如，将“红色”加到本应为蓝色的物体上）不应影响轨迹。
- MR‑3：旋转整个场景（相机视角）应导致机器人路径相应地旋转。
- MR‑4：在保持任务可行性的前提下改变机器人的初始姿态，仍应能够成功完成任务。
- MR‑5：引入未被引用的干扰物体不应改变主要任务的轨迹。
Experimental Setup
- Models：五种近期的 VLA 架构（例如，基于 CLIP 的、Flamingo 风格的）。
- Robots：两个仿真平台（一个 6‑DOF 操作臂和一个带臂的移动底座）。
- Tasks：抓取‑放置、物体堆叠、抽屉打开以及工具使用。
- 对于每个 MR，执行原始测试用例及其变换后的对应用例；若偏差超出预设容差阈值，则标记为失败。

结果与发现

故障检测：MT 在约 ≈ 38 % 的测试运行中发现了故障，许多故障被传统的符号状态预言机遗漏（例如，末端执行器路径的细微漂移）。
模型敏感性：某些 VLA 模型对语言同义词的变化（MR‑1）具有鲁棒性，但对视觉旋转（MR‑3）却脆弱，突显了模态特定的弱点。
跨机器人通用性：同一组 MR 在两个机器人平台上均可直接使用，证实了该方法对硬件的无关性。
任务可迁移性：即使在更复杂的工具使用任务中，MT 也能识别出不完整的抓取和不安全的轨迹，表明这些关系能够随任务复杂度而扩展。

实际意义

Accelerated QA Pipelines: 开发者可以将这五个 MR 嵌入持续集成测试套件，自动捕获回归，无需手动为每个提示编写判定器。
Safety Assurance: 通过标记违反不变性属性的轨迹偏差，MT 有助于在物理机器人部署前发现安全关键的错误。
Model‑Agnostic Benchmarking: 研究者可以使用相同的 MR 集合，在同等条件下比较新的 VLA 架构，关注鲁棒性而非单纯的性能指标。
Rapid Prototyping: 初创机器人团队可以用最少的人工标注工作验证早期 VLA 原型，缩短上市时间。

限制与未来工作

仅仿真评估：所有实验均在仿真环境中进行；真实世界的传感器噪声和执行误差可能影响 MR 的适用性。
固定容差阈值：当前方法依赖手动设定的偏差容限，未来可以针对不同任务或机器人自动调节。
MR 的范围：虽然这五种关系覆盖了常见扰动，但更复杂的语言结构（否定、条件句）以及动态场景变化仍未探索。
未来方向：将 MT 扩展到硬件在环测试、学习自适应阈值，并与基于强化学习的 VLA 训练循环集成，都是有前景的下一步。

作者

Pablo Valle
Sergio Segura
Shaukat Ali
Aitor Arrieta

论文信息

arXiv ID: 2602.22579v1
分类: cs.RO, cs.SE
发布时间: 2026年2月26日
PDF: 下载 PDF

[Paper] 视觉语言动作启用机器人变形测试

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 基于LLM的深度学习库静默漏洞模糊测试：通过多样化且受控的漏洞转移

[Paper] 管理基于 LLM 的多智能体系统运行中的不确定性

[Paper] 混合敏捷团队的生产力与协作：访谈研究

[Paper] RandSet：用于 Fuzzing 种子调度的随机语料库缩减