[Paper] 基于提示驱动的视频分割基础模型的后门攻击

发布: 1个月前 (2025年12月26日 GMT+8 22:48)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.22046v1

请提供您希望翻译的具体文本内容，我会按照要求将其译成简体中文并保留原始的格式、Markdown 语法以及技术术语。

概述

基于提示的视频分割基础模型（VSFMs），如 SAM‑2，正迅速成为安全关键系统的核心组件——从自动驾驶汽车到数字病理学。本文揭示了一种隐藏的安全风险：现有的后门攻击对这些模型几乎没有影响，但新设计的攻击 BadVSFM 能够在不影响正常性能的情况下，悄悄植入恶意行为。

问题洞察 – 作者首先检查了使用传统后门训练的 VSFMs 的梯度和注意力图。他们发现干净样本和被投毒样本仍然产生对齐的梯度，编码器仍然关注真实对象，阻止模型学习到独立的“触发器”表征。
两阶段攻击设计
- 阶段 1 – 编码器引导：
  - 训练一个目标图像编码器，使包含触发器的帧被迫输出 指定的目标嵌入（一个固定向量）。
  - 同时保留一个参考编码器，对干净帧保持不变，确保投毒编码器在干净数据上的行为不偏离正常。
- 阶段 2 – 解码器劫持：
  - 冻结投毒编码器，训练掩码解码器，使得无论提示类型（点、框、掩码等），任何带触发器的帧‑提示对都会产生 相同的恶意掩码（例如预先选择的物体形状）。
  - 还会在干净数据上训练一个参考解码器，以保持正常输出。
损失函数 – 训练目标结合了：
- 嵌入对齐损失（将投毒帧推向目标嵌入）。
- 干净‑参考一致性损失（保持干净帧接近参考编码器/解码器）。
- 掩码相似度损失（强制投毒解码器对触发输入输出攻击者选择的掩码）。
实现细节 – 触发器是简单的视觉模式（例如角落的彩色贴片）。即使只有 1 % 的训练视频被投毒，也能获得高 ASR，使攻击具有隐蔽性。

Model (VSFM)	Dataset	Clean mIoU ↓	Attack Success Rate (ASR) ↑
SAM‑2‑Base	DAVIS	0.78	94 %
SAM‑2‑Large	YouTube‑VOS	0.81	92 %
Other 3 VSFMs	Various	0.73‑0.79	90‑95 %

Clean performance 保持在原模型的 1‑2 % 范围内，用户几乎感觉不到性能下降。
Trigger generalization：相同的后门在所有提示类型（点、框、涂鸦等）上均可工作。
Ablation results：移除 Stage 1 或 Stage 2 会使 ASR 大幅下降（低于 30 %）。更改目标嵌入或掩码不影响成功率，验证了方法的灵活性。
Defensive evaluation：四种代表性防御（neural cleanse、fine‑pruning、input‑filtering 和 robust training）将 ASR 降低不到 10 %，表明现有防御对 VSFM 仍不足。

开发者在集成 VSFM 时应：

作者计划将 BadVSFM 拓展至多模态基础模型（如视频‑文本），并探索能够规避人工检查的自动化触发器合成方法。