[Paper] 基于提示驱动的视频分割基础模型的后门攻击

发布: (2025年12月26日 GMT+8 22:48)
8 min read
原文: arXiv

Source: arXiv - 2512.22046v1

请提供您希望翻译的具体文本内容,我会按照要求将其译成简体中文并保留原始的格式、Markdown 语法以及技术术语。

概述

基于提示的视频分割基础模型(VSFMs),如 SAM‑2,正迅速成为安全关键系统的核心组件——从自动驾驶汽车到数字病理学。本文揭示了一种隐藏的安全风险:现有的后门攻击对这些模型几乎没有影响,但新设计的攻击 BadVSFM 能够在不影响正常性能的情况下,悄悄植入恶意行为。

关键贡献

  • 首次系统性研究基于提示的 VSFM 后门威胁,展示了经典攻击(例如 BadNet)为何失败(ASR < 5 %)。
  • BadVSFM 框架:一个两阶段训练流水线,分别操控图像编码器和掩码解码器,以创建强大且可控的后门。
  • 在两个视频数据集和五个最先进的 VSFM 上进行的大量实证验证,实现了高攻击成功率(ASR > 90 %),且对干净分割质量影响微乎其微。
  • 全面的消融研究,确认每个损失项、两阶段设计以及对不同触发器、提示类型和投毒率的鲁棒性都是必要的。
  • 安全性分析:梯度冲突和注意力可视化揭示 BadVSFM 如何隔离触发器表征,且四种现有防御对该攻击均无效。

方法论

  1. 问题洞察 – 作者首先检查了使用传统后门训练的 VSFMs 的梯度和注意力图。他们发现干净样本和被投毒样本仍然产生对齐的梯度,编码器仍然关注真实对象,阻止模型学习到独立的“触发器”表征。

  2. 两阶段攻击设计

    • 阶段 1 – 编码器引导
      • 训练一个 目标 图像编码器,使包含触发器的帧被迫输出 指定的目标嵌入(一个固定向量)。
      • 同时保留一个 参考 编码器,对干净帧保持不变,确保投毒编码器在干净数据上的行为不偏离正常。
    • 阶段 2 – 解码器劫持
      • 冻结投毒编码器,训练掩码解码器,使得无论提示类型(点、框、掩码等),任何带触发器的帧‑提示对都会产生 相同的恶意掩码(例如预先选择的物体形状)。
      • 还会在干净数据上训练一个参考解码器,以保持正常输出。
  3. 损失函数 – 训练目标结合了:

    • 嵌入对齐损失(将投毒帧推向目标嵌入)。
    • 干净‑参考一致性损失(保持干净帧接近参考编码器/解码器)。
    • 掩码相似度损失(强制投毒解码器对触发输入输出攻击者选择的掩码)。
  4. 实现细节 – 触发器是简单的视觉模式(例如角落的彩色贴片)。即使只有 1 % 的训练视频被投毒,也能获得高 ASR,使攻击具有隐蔽性。

结果与发现

Model (VSFM)DatasetClean mIoU ↓Attack Success Rate (ASR) ↑
SAM‑2‑BaseDAVIS0.7894 %
SAM‑2‑LargeYouTube‑VOS0.8192 %
Other 3 VSFMsVarious0.73‑0.7990‑95 %
  • Clean performance 保持在原模型的 1‑2 % 范围内,用户几乎感觉不到性能下降。
  • Trigger generalization:相同的后门在所有提示类型(点、框、涂鸦等)上均可工作。
  • Ablation results:移除 Stage 1 或 Stage 2 会使 ASR 大幅下降(低于 30 %)。更改目标嵌入或掩码不影响成功率,验证了方法的灵活性。
  • Defensive evaluation:四种代表性防御(neural cleanse、fine‑pruning、input‑filtering 和 robust training)将 ASR 降低不到 10 %,表明现有防御对 VSFM 仍不足。

实际影响

  • 供应链风险:从公共仓库下载的预训练 VSFM 可能已经包含隐藏后门,使下游应用(例如自动驾驶感知堆栈)面临恶意操控。
  • 提示层攻击面:由于后门不受提示影响,攻击者无需了解具体用户交互即可触发,扩大了威胁模型。
  • 模型即服务 (MaaS):提供视频分割的云 API 可能被攻破;恶意提供商可以嵌入 BadVSFM 并在针对特定客户时激活。
  • 缓解路径:论文指出,未来的防御必须显式地解耦编码器和解码器表示,监控嵌入漂移,并可能实施针对提示的鲁棒性检查。

开发者在集成 VSFM 时应:

  1. 验证模型来源(哈希值、签名)。
  2. 在部署前对小规模干净的验证集进行合理性检查。
  3. 当出现异常视觉模式时,考虑运行时监控异常的掩码输出。

局限性与未来工作

  • 触发器简易性:实验聚焦于显眼的角落补丁;更微妙或动态的触发器(例如运动模式)尚未探索。
  • 数据集范围:仅使用了两个视频分割基准;实际场景如医学影像或航空监控可能呈现不同的动态特性。
  • 防御评估:虽然测试了四种防御方法,但研究未提出具体的缓解方案,稳健对策的开发仍是未解之题。
  • 可扩展性:两阶段训练相较于标准微调会增加额外计算开销;优化攻击流水线以适用于大规模模型是潜在方向。

作者计划将 BadVSFM 拓展至多模态基础模型(如视频‑文本),并探索能够规避人工检查的自动化触发器合成方法。

作者

  • Zongmin Zhang
  • Zhen Sun
  • Yifan Liao
  • Wenhan Dong
  • Xinlei He
  • Xingshuo Han
  • Shengmin Xu
  • Xinyi Huang

论文信息

  • arXiv ID: 2512.22046v1
  • 分类: cs.CV, cs.CR
  • 出版日期: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »