[论文] 注意力引导的 Patch-Wise 稀疏对抗攻击在 Vision-Language-Action 模型上
发布: (2025年11月27日 GMT+8 02:37)
5 min read
原文: arXiv
Source: arXiv - 2511.21663v1
Overview
Vision‑Language‑Action (VLA) 模型是众多具身 AI 系统的核心,从家用机器人到 AR 助手皆依赖它们。本文提出 ADVLA,一种轻量级的对抗攻击,它在视觉特征被投射到语言空间之后进行扰动,能够在保持视觉变化极小且高度局部化的情况下,几乎完全破坏下游动作。
Key Contributions
- 特征空间攻击:ADVLA 直接在送入语言模块的视觉编码器输出上注入扰动,而不是修改原始像素。
- 注意力引导稀疏性:利用模型自身的注意力图,将扰动集中在最具影响力的 patch 上,将修改区域压缩至 < 10 % 的图像。
- 三种互补策略
- 灵敏度放大 – 增强对高影响特征的梯度。
- 稀疏掩码(Top‑K) – 将扰动限制在注意力最高的前 K 个 patch。
- 集中正则化 – 鼓励扰动质量聚集在关键区域。
- 高效性:单步攻击每张图像约耗时 ~0.06 s,速度比传统基于 patch 的方法快数十倍。
- 强劲的实证结果:在 $L_{\infty}=4/255$ 预算下,ADVLA 在几乎不可感知的变化下实现 ≈ 100 % 的攻击成功率。
Methodology
- 特征提取 – 视觉编码器处理输入帧并生成一组 patch 嵌入。
- 投射到语言空间 – 将这些嵌入线性投射到语言模型使用的文本特征空间。
- 基于梯度的扰动 – ADVLA 计算下游动作损失相对于投射特征的梯度。
- 注意力引导 – 模型的跨模态注意力分数用于识别哪些 patch 对动作预测影响最大。
- 稀疏掩码 – 仅对前 K 个 patch(例如占全部 patch 的 5 %–10 %)施加扰动。
- 优化 – 单步(或少步)更新将扰动裁剪至 $L_{\infty}=4/255$ 限制内。
整个流程无需对 VLA 模型进行端到端的再训练,属于“即插即用”攻击。
Results & Findings
| Metric | Baseline Patch Attack | ADVLA (Top‑K) |
|---|---|---|
| Attack Success Rate | ~85 % | ≈ 100 % |
| Modified Patch Ratio | 30 %–40 % | < 10 % |
| Visual Distortion (PSNR) | 22 dB | > 30 dB(几乎不可感知) |
| Runtime per Image | 0.4 s | 0.06 s |
- 扰动集中在语义重要的区域(例如机器人应交互的物体)。
- 即使在严格的 $L_{\infty}=4/255$ 约束下,下游策略的动作 logits 仍被翻转,显示 VLA 流水线对特征空间噪声极为敏感。
- 消融实验表明,灵敏度、稀疏性和集中性三项策略均对攻击效果有叠加贡献。
Practical Implications
- 具身 AI 的安全测试 – 开发者可以使用 ADVLA 进行快速、低成本的健全性检查,以评估 VLA 流水线在部署前的鲁棒性。
- 防御设计 – 细小、稀疏的特征空间扰动即可破坏系统,表明未来的防御应关注注意力加权特征的稳定性,而不仅仅是像素层面的异常。
- 资源受限环境 – 由于 ADVLA 在单 GPU 上仅需毫秒级运行时间,可集成到持续集成(CI)流水线或设备端测试套件中。
- 对模型架构师的启示 – 攻击凸显视觉到语言的投射层是关键脆弱点;在该层加入随机性或正则化可能提升系统韧性。
Limitations & Future Work
- 模型范围 – 实验仅覆盖少数流行的 VLA 架构;对其他多模态设置(如 video‑language‑action)的迁移性尚未验证。
- 物理世界可行性 – 虽然扰动稀疏,但仍是数字形式;如何将其转化为现实中的贴纸或光照变化仍是开放问题。
- 防御评估 – 本文提出攻击但未对现有防御(如对抗训练、特征去噪)进行基准测试。
未来研究可探索通用(输入无关)的特征空间扰动,扩展至视频流,并开发注意力感知的鲁棒性度量。
Authors
- Naifu Zhang
- Wei Tao
- Xi Xiao
- Qianpu Sun
- Yuxin Zheng
- Wentao Mo
- Peiqiang Wang
- Nan Zhang
Paper Information
- arXiv ID: 2511.21663v1
- Categories: cs.CV, cs.AI
- Published: November 26, 2025
- PDF: Download PDF