[Paper] 上下文图像攻击:视觉上下文如何暴露多模态安全漏洞

发布: (2025年12月3日 GMT+8 01:51)
7 min read
原文: arXiv

Source: arXiv - 2512.02973v1

概览

本文提出了 Contextual Image Attack (CIA),这是一种通过将恶意指令直接嵌入图像视觉内容来越狱多模态大语言模型(MLLM)的新方法。作者将图片本身视为“提示”,展示了即使是 GPT‑4o 和 Qwen2.5‑VL 等最先进的模型,也可以被诱导生成有害或不安全的输出,凸显了开发 AI 驱动的视觉‑语言系统时一个此前未被充分探索的攻击面。

主要贡献

  • 以图像为中心的越狱框架: 将焦点从文本‑图像交互转移到使用图像作为有害意图的主要载体。
  • 多代理生成管线: 四种可视化策略(对象插入、场景操控、风格迁移和上下文叠加)自动生成外观良好的图像,隐藏恶意查询。
  • 上下文元素增强: 在不破坏视觉合理性的前提下提升隐藏指令的显著性。
  • 自动毒性混淆: 通过同义词替换和语言掩码规避现有安全过滤器。
  • 实证优势: 在 MMSafetyBench‑tiny 基准上,CIA 在 GPT‑4o 上达到 4.73 的毒性得分,在 Qwen2.5‑VL‑72B 上达到 4.83,攻击成功率分别为 86.31 %91.07 %,远超以往以文本为中心的攻击。

方法论

  1. 提示生成: “规划者”代理接收目标恶意查询,并决定使用四种可视化策略中的哪一种。
  2. 图像合成:
    • 对象插入:放置一个小的、与上下文相关的对象(如标志或标签),在其纹理中编码查询。
    • 场景操控:修改背景元素(如广告牌文字)以嵌入指令。
    • 风格迁移:使用细微的颜色或图案变化映射到编码的 token。
    • 上下文叠加:添加半透明层(如 AR 贴纸),肉眼难以立即察觉。
  3. 上下文增强: 调整光照、阴影和透视,使隐藏元素自然融合,提升模型注意到它的概率。
  4. 毒性混淆: 将隐藏文本通过同义词层面的改写器,并加入无害填充词,使安全分类器更难检测。
  5. 评估: 将生成的图像连同中性标题一起输入目标 MLLM,依据模型的响应对毒性以及是否执行了恶意指令进行打分。

结果与发现

模型毒性得分(满分 5)攻击成功率
GPT‑4o4.7386.31 %
Qwen2.5‑VL‑72B4.8391.07 %
  • CIA 始终优于基线仅文本越狱(其攻击成功率通常在 60‑70 % 左右)。
  • 视觉上下文显著提升模型对隐藏提示的关注度,尤其是嵌入元素与整体场景语义相符时。
  • 混淆模块相较于直接使用有毒文本,使现有安全过滤器的检测率降低约 30 %

实际意义

  • 视觉‑语言产品的安全测试: 开发者应将图像视为一级攻击向量,而非仅仅是辅助数据。
  • 强化审查流水线: 内容过滤器需要在原始像素之外,分析视觉语义(如 OCR、场景理解)。
  • 稳健的提示库: 构建安全助手时,需对文本和视觉输入都进行消毒,或通过“视觉安全网”对图像进行可疑嵌入文本或模式的标记。
  • 模型训练调整: 将 CIA 等对抗视觉示例纳入微调数据集,可提升模型对基于上下文的越狱的抵抗力。
  • 合规与政策: 在受监管领域(医疗、金融等)部署 MLLM 的公司必须将风险评估范围扩展到图像携带的恶意指令。

局限性与未来工作

  • 数据集范围: 实验仅限于 MMSafetyBench‑tiny 基准;更大、更多样的语料库可能会揭示额外的失效模式。
  • 可迁移性: 该攻击在两种模型上进行评估;其在其他架构(如使用不同分词器的开源视觉‑语言模型)上的有效性仍需量化。
  • 检测军备竞赛: 作者仅提出了基础混淆,未来工作可探索联合分析视觉与文本线索的自适应防御。
  • 用户体验影响: 部分生成图像对人工审查者而言可能略显异常;在不牺牲攻击效力的前提下提升视觉真实感仍是一个待解挑战。

核心结论: 《Contextual Image Attack》论文提醒我们,“眼见为实”已不再是多模态 AI 的安全假设。构建或部署 MLLM 的开发者必须将威胁模型拓宽至视觉通道,并着手构建能够洞悉上下文的防御体系。

作者

  • Yuan Xiong
  • Ziqi Miao
  • Lijun Li
  • Chen Qian
  • Jie Li
  • Jing Shao

论文信息

  • arXiv ID: 2512.02973v1
  • 分类: cs.CV, cs.CL, cs.CR
  • 发布日期: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »