[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

发布: 3天前 (2026年2月20日 GMT+8 02:54)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.17645v1

概览

本文介绍了 M‑Attack‑V2，这是一套对现有 M‑Attack 框架的简洁而强大的升级，用于对大型视觉语言模型（LVLM）进行黑盒对抗攻击。通过解决困扰先前基于迁移攻击的高方差梯度问题，作者在针对 Claude‑4.0、Gemini‑2.5‑Pro 和 GPT‑5 等前沿模型的成功率上实现了显著提升，同时保持攻击流程完全黑盒（无需梯度访问）。

关键贡献

诊断原始 M‑Attack 中的梯度不稳定性，将其关联到 ViT 的平移敏感性以及不对称的源‑目标裁剪处理。
多裁剪对齐 (MCA)：在每次迭代中对多个独立采样的源裁剪的梯度进行平均，显著降低方差。
辅助目标对齐 (ATA)：用一个小的、语义对齐的辅助目标集合取代激进的目标增强，平滑目标流形。
Patch Momentum（补丁动量）：在补丁层面重新解释动量，重放历史裁剪梯度以强化一致方向。
Patch‑Size Ensemble (PE+)（补丁尺寸集成）：优化补丁尺寸的集成，以捕获更丰富的可迁移线索。
M‑Attack‑V2：对 M‑Attack 的模块化即插即用改进，使黑盒 LVLM 攻击成功率从个位数提升至在多个最先进模型上接近完美。
开源发布 代码、数据和预训练攻击配置。

方法论

问题设定 – 在黑箱环境中，攻击者只能使用图像‑文本对查询 LVLM 并观察模型的输出。目标是构造一个扰动图像，使 LVLM 给出目标（错误）的响应。
原始 M‑Attack 回顾 – 使用 局部裁剪级匹配：随机裁剪源图像并与目标图像的裁剪对齐，通过代理模型的迁移来估计梯度。
为何会失效 –
- ViT 平移敏感性 会产生“尖峰式”梯度，随着微小的裁剪偏移而剧烈变化。
- 源/目标裁剪不对称 导致在迭代过程中梯度方向几乎正交，产生噪声更新。
多裁剪对齐 (MCA) – 在每次迭代中，从源图像采样 N 个独立裁剪，计算它们的代理梯度并取平均。对源变换的期望能够稳定梯度方向。
辅助目标对齐 (ATA) – 与其对目标图像进行大量增强（会扩展目标流形），不如从语义相关的分布中抽取一小批辅助目标图像（例如同类或相同标题）。攻击将源裁剪对齐到这个更平滑的目标集合，从而降低目标侧的方差。
Patch Momentum – 传统动量累计整幅图像的梯度。Patch Momentum 为每个 ViT patch 保存动量，使优化器能够“重放”历史上一致的 patch 级方向。
Patch‑Size Ensemble (PE+) – 同时在多个 patch 大小（如 16×16、32×32）上运行攻击，并聚合得到的梯度，捕获细粒度和粗粒度的线索。
整体组合 – 这些模块相互独立，可单独开启或关闭。实际中，作者将 MCA + ATA + Patch Momentum + PE+ 组合成一个完整流水线（M‑Attack‑V2）。

结果与发现

目标 LVLM	基线 M‑Attack 成功率	M‑Attack‑V2 成功率
Claude‑4.0	8 %	30 %
Gemini‑2.5‑Pro	83 %	97 %
GPT‑5	98 %	100 %

梯度方差 在使用 MCA 时下降约 70 %，通过迭代间梯度差的范数进行测量。
ATA 将连续目标梯度之间的平均余弦距离从 0.45 降至 0.12，表明目标空间更平滑。
Patch Momentum 在 MCA + ATA 基础上进一步提升 5–10 % 的可转移性，尤其对更大的 ViT 主干网络效果显著。
PE+ 再额外提升 2–3 %，验证了多尺度 Patch 信息的互补性。

总体而言，该攻击仍保持黑箱（仅查询访问）特性，却在所测试的 LVLM 上实现了可与白箱方法媲美的转移成功率。

实际意义

多模态产品的安全审计 – 部署 LVLM（例如视觉助手、内容审核工具）的公司现在可以使用轻量级、仅查询的攻击套件来评估鲁棒性。
防御性研究 – 已识别的失效模式（对平移敏感的 ViT 梯度、非对称裁剪处理）为防御提供了具体目标，如梯度遮蔽、随机补丁洗牌或鲁棒数据增强。
对抗训练流水线 – MCA 和 ATA 可以重新用作 以数据为中心 的增强策略：使用多裁剪、语义对齐的配对进行训练，可能提升模型对细粒度扰动的不变性。
可转移性基准 – M‑Attack‑V2 为未来的黑盒 LVLM 攻击研究提供了强有力的基准，使论文之间的比较更为公平。
红队工具 – 开源实现可以集成到现有的红队框架（例如 AutoAttack、Foolbox），在无需梯度访问的情况下扩展其对多模态模型的覆盖。

限制与未来工作

Query Budget – 虽然攻击是黑盒的，但在 GPT‑5 上实现近乎完美的成功率仍然需要数千次查询，这在受速率限制的 API 环境中可能不切实际。
Dependence on Surrogate Model – 可迁移性取决于替代 LVLM 的质量；当目标模型的架构与替代模型有显著差异时，攻击效果可能会下降。
Semantic Auxiliary Set Construction – ATA 假设能够获取一个小规模、语义相关的图像池；如何为任意目标自动生成此类集合仍是一个未解决的挑战。
Defense Evaluation – 本文侧重于攻击性能；对现有防御手段（如输入随机化、检测机制）的系统性测试留待后续研究。
Extending Beyond Vision‑Language – 将相同的梯度去噪思路应用于纯语言或音频‑文本多模态模型是一个有前景的方向。

总体而言，M‑Attack‑V2 照亮了当今最强 LVLM 的潜在脆弱性，并为实践者提供了一种实用工具，以探测——并最终强化——这些系统。

作者

Xiaohan Zhao
Zhaoyi Li
Yaxin Luo
Jiacheng Cui
Zhiqiang Shen

论文信息

arXiv ID: 2602.17645v1
分类: cs.LG, cs.AI, cs.CL, cs.CV
出版日期: 2026年2月19日
PDF: 下载 PDF

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[论文] 级联等价假设：何时语音 LLM 的行为类似于 ASR→LLM 管道？

[Paper] KLong：训练 LLM 代理用于极长时程任务

[Paper] 学会保持安全：在微调过程中针对安全退化的自适应正则化