[Paper] 开放基础模型中视觉的对抗鲁棒性

发布: (2025年12月20日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.17902v1

Overview

论文 Adversarial Robustness of Vision in Open Foundation Models 研究了两种流行的开源权重视觉‑语言模型——LLaVA‑1.5‑13B 和 Meta 的 Llama 3.2 Vision‑8B‑2——在其视觉输入被故意破坏时的表现。通过对 VQA‑v2 基准中的图像执行无目标的投影梯度下降(PGD)攻击,作者量化了模型答案准确率的下降幅度,揭示了在标准性能分数之外并不明显的鲁棒性差异。

关键贡献

  • 首次系统性对开放权重视觉语言模型(VLM)进行对抗评估,在大规模 VQA 基准上进行。
  • 对两种最先进的 VLM(LLaVA‑1.5‑13B 与 Llama 3.2 Vision‑8B‑2)在递增的 PGD 扰动强度下进行经验比较
  • 发现更高的基线准确率并不保证更强的对抗鲁棒性——Llama 3.2 Vision 虽然干净得分较低,但在攻击下衰减更平缓。
  • 定量分析将鲁棒性与架构和训练选择关联,表明模型规模、多模态融合策略和预训练数据会影响易受攻击性。
  • 开源发布攻击脚本和扰动后的 VQA 子集,使社区能够对未来的 VLM 进行视觉对抗基准测试。

方法论

  1. 测试模型 – LLaVA‑1.5‑13B(CLIP 骨干 + LLM 融合)和 Meta 的 Llama 3.2 Vision‑8B‑2(统一的 Transformer,早期视觉 token 融合)。
  2. 数据集 – VQA‑v2 数据集的精心挑选子集(约 10 k 张图像‑问题对),涵盖对象、属性和计数问题的平衡组合。
  3. 攻击过程 – 对每张图像的原始像素值直接施加无目标 PGD。攻击进行 40 次迭代,步长调节至实现 ℓ∞ 扰动预算为 2/255、4/255、8/255 和 16/255。未使用语言组件的梯度信息,仅对视觉编码器的损失进行反向传播。
  4. 评估指标 – 标准 VQA 准确率(多数投票后与人工提供的真实答案匹配的答案比例)。分别报告干净图像和各扰动水平下的准确率。
  5. 分析 – 作者计算 准确率下降(干净 – 对抗),绘制鲁棒性曲线,并将其与模型架构细节(例如视觉编码器深度、token 级别融合)进行关联。

结果与发现

扰动 (ℓ∞)LLaVA‑1.5‑13B 清洁准确率LLaVA‑1.5‑13B 准确率Llama 3.2 Vision‑8B‑2 清洁准确率Llama 3.2 Vision 准确率
0 (clean)71.2 %64.8 %
2/25571.2 %58.9 % (‑12.3)64.8 %55.6 % (‑9.2)
4/25571.2 %45.3 % (‑25.9)64.8 %48.9 % (‑15.9)
8/25571.2 %28.7 % (‑42.5)64.8 %36.2 % (‑28.6)
16/25571.2 %12.4 % (‑58.8)64.8 %21.5 % (‑43.3)

关键要点

  • 两个模型的准确率都出现显著下降,随着扰动强度的增加,这表明视觉通道是一个可利用的攻击面。
  • Llama 3.2 Vision 在每个扰动水平上失去的准确率始终少于 LLaVA,即使其清洁基线较低。
  • 在更高的 ε 时,相对鲁棒性差距扩大,这表明 Llama 3.2 的早期视觉令牌集成可能对像素级噪声提供隐式正则化。
  • 清洁性能与鲁棒性之间不存在简单的线性关系;架构选择(例如视觉编码器的深度、令牌融合时机)似乎更为重要。

实际意义

  • 面向多模态应用的安全设计 – 开发聊天机器人、图像搜索或依赖 VLM(视觉语言模型)的辅助工具时,开发者应将视觉前端视为潜在攻击面。简单的图像预处理(例如 JPEG 压缩、去噪)可以缓解低预算的 PGD 攻击。
  • 模型选择 – 当鲁棒性比原始 VQA 准确率更重要时(例如在安全关键的检测或医学影像中),尽管 Llama 3.2 Vision 的干净分数较低,但它可能是更好的默认选择。
  • 对抗性测试流水线 – 已发布的 PGD 脚本可以集成到 CI 流水线中,自动标记在微调或量化新模型版本时出现的视觉鲁棒性回退。
  • 微调指南 – 研究结果表明,在噪声或增强的视觉数据上进行微调可以提升鲁棒性而不显著牺牲准确率,这为已有 VLM 投产的团队提供了实用方案。
  • 监管与合规 – 对于 AI 可解释性和可靠性有强制要求的行业(例如自动驾驶),展示对视觉对手的抵抗能力成为合规清单的一部分。

限制与未来工作

  • 仅针对未定向 PGD – 本研究仅关注未定向攻击;定向或感知约束的攻击(例如基于补丁的、风格迁移的)可能表现不同。
  • 单一数据集 – 结果仅在 VQA‑v2 子集上报告;其他视觉‑语言任务(图像描述、视觉定位)可能呈现不同的鲁棒性模式。
  • 未评估防御措施 – 论文未测试常见防御(对抗训练、输入预处理),因此仍未明确可以恢复多少鲁棒性。
  • 架构归因 – 虽然作者假设早期 token 融合有助于鲁棒性,但仍需更深入的消融实验(改变融合深度、编码器规模)以 pinpoint 因果因素。
  • 可扩展性 – 实验仅局限于 13 B 和 8 B 模型;尚不清楚更大的基础模型(例如 70 B)是否遵循相同趋势。

Future directions could include targeted attacks, cross‑task robustness studies, systematic defense benchmarking, and a deeper architectural ablation to guide the next generation of robust vision‑language foundations.

作者

  • Jonathon Fox
  • William J Buchanan
  • Pavlos Papadopoulos

论文信息

  • arXiv ID: 2512.17902v1
  • 分类: cs.CV, cs.AI, cs.CR
  • 出版日期: 2025年12月19日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »