[Paper] 基于提示驱动的视频分割基础模型的后门攻击
Source: arXiv - 2512.22046v1
请提供您希望翻译的具体文本内容,我会按照要求将其译成简体中文并保留原始的格式、Markdown 语法以及技术术语。
概述
基于提示的视频分割基础模型(VSFMs),如 SAM‑2,正迅速成为安全关键系统的核心组件——从自动驾驶汽车到数字病理学。本文揭示了一种隐藏的安全风险:现有的后门攻击对这些模型几乎没有影响,但新设计的攻击 BadVSFM 能够在不影响正常性能的情况下,悄悄植入恶意行为。
关键贡献
- 首次系统性研究基于提示的 VSFM 后门威胁,展示了经典攻击(例如 BadNet)为何失败(ASR < 5 %)。
- BadVSFM 框架:一个两阶段训练流水线,分别操控图像编码器和掩码解码器,以创建强大且可控的后门。
- 在两个视频数据集和五个最先进的 VSFM 上进行的大量实证验证,实现了高攻击成功率(ASR > 90 %),且对干净分割质量影响微乎其微。
- 全面的消融研究,确认每个损失项、两阶段设计以及对不同触发器、提示类型和投毒率的鲁棒性都是必要的。
- 安全性分析:梯度冲突和注意力可视化揭示 BadVSFM 如何隔离触发器表征,且四种现有防御对该攻击均无效。
方法论
-
问题洞察 – 作者首先检查了使用传统后门训练的 VSFMs 的梯度和注意力图。他们发现干净样本和被投毒样本仍然产生对齐的梯度,编码器仍然关注真实对象,阻止模型学习到独立的“触发器”表征。
-
两阶段攻击设计
- 阶段 1 – 编码器引导:
- 训练一个 目标 图像编码器,使包含触发器的帧被迫输出 指定的目标嵌入(一个固定向量)。
- 同时保留一个 参考 编码器,对干净帧保持不变,确保投毒编码器在干净数据上的行为不偏离正常。
- 阶段 2 – 解码器劫持:
- 冻结投毒编码器,训练掩码解码器,使得无论提示类型(点、框、掩码等),任何带触发器的帧‑提示对都会产生 相同的恶意掩码(例如预先选择的物体形状)。
- 还会在干净数据上训练一个参考解码器,以保持正常输出。
- 阶段 1 – 编码器引导:
-
损失函数 – 训练目标结合了:
- 嵌入对齐损失(将投毒帧推向目标嵌入)。
- 干净‑参考一致性损失(保持干净帧接近参考编码器/解码器)。
- 掩码相似度损失(强制投毒解码器对触发输入输出攻击者选择的掩码)。
-
实现细节 – 触发器是简单的视觉模式(例如角落的彩色贴片)。即使只有 1 % 的训练视频被投毒,也能获得高 ASR,使攻击具有隐蔽性。
结果与发现
| Model (VSFM) | Dataset | Clean mIoU ↓ | Attack Success Rate (ASR) ↑ |
|---|---|---|---|
| SAM‑2‑Base | DAVIS | 0.78 | 94 % |
| SAM‑2‑Large | YouTube‑VOS | 0.81 | 92 % |
| Other 3 VSFMs | Various | 0.73‑0.79 | 90‑95 % |
- Clean performance 保持在原模型的 1‑2 % 范围内,用户几乎感觉不到性能下降。
- Trigger generalization:相同的后门在所有提示类型(点、框、涂鸦等)上均可工作。
- Ablation results:移除 Stage 1 或 Stage 2 会使 ASR 大幅下降(低于 30 %)。更改目标嵌入或掩码不影响成功率,验证了方法的灵活性。
- Defensive evaluation:四种代表性防御(neural cleanse、fine‑pruning、input‑filtering 和 robust training)将 ASR 降低不到 10 %,表明现有防御对 VSFM 仍不足。
实际影响
- 供应链风险:从公共仓库下载的预训练 VSFM 可能已经包含隐藏后门,使下游应用(例如自动驾驶感知堆栈)面临恶意操控。
- 提示层攻击面:由于后门不受提示影响,攻击者无需了解具体用户交互即可触发,扩大了威胁模型。
- 模型即服务 (MaaS):提供视频分割的云 API 可能被攻破;恶意提供商可以嵌入 BadVSFM 并在针对特定客户时激活。
- 缓解路径:论文指出,未来的防御必须显式地解耦编码器和解码器表示,监控嵌入漂移,并可能实施针对提示的鲁棒性检查。
开发者在集成 VSFM 时应:
- 验证模型来源(哈希值、签名)。
- 在部署前对小规模干净的验证集进行合理性检查。
- 当出现异常视觉模式时,考虑运行时监控异常的掩码输出。
局限性与未来工作
- 触发器简易性:实验聚焦于显眼的角落补丁;更微妙或动态的触发器(例如运动模式)尚未探索。
- 数据集范围:仅使用了两个视频分割基准;实际场景如医学影像或航空监控可能呈现不同的动态特性。
- 防御评估:虽然测试了四种防御方法,但研究未提出具体的缓解方案,稳健对策的开发仍是未解之题。
- 可扩展性:两阶段训练相较于标准微调会增加额外计算开销;优化攻击流水线以适用于大规模模型是潜在方向。
作者计划将 BadVSFM 拓展至多模态基础模型(如视频‑文本),并探索能够规避人工检查的自动化触发器合成方法。
作者
- Zongmin Zhang
- Zhen Sun
- Yifan Liao
- Wenhan Dong
- Xinlei He
- Xingshuo Han
- Shengmin Xu
- Xinyi Huang
论文信息
- arXiv ID: 2512.22046v1
- 分类: cs.CV, cs.CR
- 出版日期: 2025年12月26日
- PDF: 下载 PDF