[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿
发布: (2026年2月20日 GMT+8 02:54)
9 分钟阅读
原文: arXiv
Source: arXiv - 2602.17645v1
概览
本文介绍了 M‑Attack‑V2,这是一套对现有 M‑Attack 框架的简洁而强大的升级,用于对大型视觉语言模型(LVLM)进行黑盒对抗攻击。通过解决困扰先前基于迁移攻击的高方差梯度问题,作者在针对 Claude‑4.0、Gemini‑2.5‑Pro 和 GPT‑5 等前沿模型的成功率上实现了显著提升,同时保持攻击流程完全黑盒(无需梯度访问)。
关键贡献
- 诊断原始 M‑Attack 中的梯度不稳定性,将其关联到 ViT 的平移敏感性以及不对称的源‑目标裁剪处理。
- 多裁剪对齐 (MCA):在每次迭代中对多个独立采样的源裁剪的梯度进行平均,显著降低方差。
- 辅助目标对齐 (ATA):用一个小的、语义对齐的辅助目标集合取代激进的目标增强,平滑目标流形。
- Patch Momentum(补丁动量):在补丁层面重新解释动量,重放历史裁剪梯度以强化一致方向。
- Patch‑Size Ensemble (PE+)(补丁尺寸集成):优化补丁尺寸的集成,以捕获更丰富的可迁移线索。
- M‑Attack‑V2:对 M‑Attack 的模块化即插即用改进,使黑盒 LVLM 攻击成功率从个位数提升至在多个最先进模型上接近完美。
- 开源发布 代码、数据和预训练攻击配置。
方法论
- 问题设定 – 在黑箱环境中,攻击者只能使用图像‑文本对查询 LVLM 并观察模型的输出。目标是构造一个扰动图像,使 LVLM 给出目标(错误)的响应。
- 原始 M‑Attack 回顾 – 使用 局部裁剪级匹配:随机裁剪源图像并与目标图像的裁剪对齐,通过代理模型的迁移来估计梯度。
- 为何会失效 –
- ViT 平移敏感性 会产生“尖峰式”梯度,随着微小的裁剪偏移而剧烈变化。
- 源/目标裁剪不对称 导致在迭代过程中梯度方向几乎正交,产生噪声更新。
- 多裁剪对齐 (MCA) – 在每次迭代中,从源图像采样 N 个独立裁剪,计算它们的代理梯度并取平均。对源变换的期望能够稳定梯度方向。
- 辅助目标对齐 (ATA) – 与其对目标图像进行大量增强(会扩展目标流形),不如从语义相关的分布中抽取一小批 辅助 目标图像(例如同类或相同标题)。攻击将源裁剪对齐到这个更平滑的目标集合,从而降低目标侧的方差。
- Patch Momentum – 传统动量累计整幅图像的梯度。Patch Momentum 为每个 ViT patch 保存动量,使优化器能够“重放”历史上一致的 patch 级方向。
- Patch‑Size Ensemble (PE+) – 同时在多个 patch 大小(如 16×16、32×32)上运行攻击,并聚合得到的梯度,捕获细粒度和粗粒度的线索。
- 整体组合 – 这些模块相互独立,可单独开启或关闭。实际中,作者将 MCA + ATA + Patch Momentum + PE+ 组合成一个完整流水线(M‑Attack‑V2)。
结果与发现
| 目标 LVLM | 基线 M‑Attack 成功率 | M‑Attack‑V2 成功率 |
|---|---|---|
| Claude‑4.0 | 8 % | 30 % |
| Gemini‑2.5‑Pro | 83 % | 97 % |
| GPT‑5 | 98 % | 100 % |
- 梯度方差 在使用 MCA 时下降约 70 %,通过迭代间梯度差的范数进行测量。
- ATA 将连续目标梯度之间的平均余弦距离从 0.45 降至 0.12,表明目标空间更平滑。
- Patch Momentum 在 MCA + ATA 基础上进一步提升 5–10 % 的可转移性,尤其对更大的 ViT 主干网络效果显著。
- PE+ 再额外提升 2–3 %,验证了多尺度 Patch 信息的互补性。
总体而言,该攻击仍保持 黑箱(仅查询访问)特性,却在所测试的 LVLM 上实现了可与白箱方法媲美的转移成功率。
实际意义
- 多模态产品的安全审计 – 部署 LVLM(例如视觉助手、内容审核工具)的公司现在可以使用轻量级、仅查询的攻击套件来评估鲁棒性。
- 防御性研究 – 已识别的失效模式(对平移敏感的 ViT 梯度、非对称裁剪处理)为防御提供了具体目标,如梯度遮蔽、随机补丁洗牌或鲁棒数据增强。
- 对抗训练流水线 – MCA 和 ATA 可以重新用作 以数据为中心 的增强策略:使用多裁剪、语义对齐的配对进行训练,可能提升模型对细粒度扰动的不变性。
- 可转移性基准 – M‑Attack‑V2 为未来的黑盒 LVLM 攻击研究提供了强有力的基准,使论文之间的比较更为公平。
- 红队工具 – 开源实现可以集成到现有的红队框架(例如 AutoAttack、Foolbox),在无需梯度访问的情况下扩展其对多模态模型的覆盖。
限制与未来工作
- Query Budget – 虽然攻击是黑盒的,但在 GPT‑5 上实现近乎完美的成功率仍然需要数千次查询,这在受速率限制的 API 环境中可能不切实际。
- Dependence on Surrogate Model – 可迁移性取决于替代 LVLM 的质量;当目标模型的架构与替代模型有显著差异时,攻击效果可能会下降。
- Semantic Auxiliary Set Construction – ATA 假设能够获取一个小规模、语义相关的图像池;如何为任意目标自动生成此类集合仍是一个未解决的挑战。
- Defense Evaluation – 本文侧重于攻击性能;对现有防御手段(如输入随机化、检测机制)的系统性测试留待后续研究。
- Extending Beyond Vision‑Language – 将相同的梯度去噪思路应用于纯语言或音频‑文本多模态模型是一个有前景的方向。
总体而言,M‑Attack‑V2 照亮了当今最强 LVLM 的潜在脆弱性,并为实践者提供了一种实用工具,以探测——并最终强化——这些系统。
作者
- Xiaohan Zhao
- Zhaoyi Li
- Yaxin Luo
- Jiacheng Cui
- Zhiqiang Shen
论文信息
- arXiv ID: 2602.17645v1
- 分类: cs.LG, cs.AI, cs.CL, cs.CV
- 出版日期: 2026年2月19日
- PDF: 下载 PDF