[Paper] 프롬프트 기반 비디오 세그멘테이션 파운데이션 모델에 대한 백도어 공격
Source: arXiv - 2512.22046v1
개요
프롬프트‑기반 비디오 분할 기반 모델(VSFMs)인 SAM‑2와 같은 모델은 자율 주행 차량부터 디지털 병리학에 이르기까지 안전‑중요 시스템의 핵심 구성 요소로 빠르게 자리 잡고 있습니다. 이 논문은 숨겨진 보안 위험을 밝혀냅니다: 기존 백도어 공격은 이러한 모델에 거의 영향을 주지 않지만, 새롭게 설계된 공격 BadVSFM은 정상 성능을 유지하면서 악의적인 행동을 은밀히 삽입할 수 있습니다.
주요 기여
- 프롬프트 기반 VSFM에 대한 백도어 위협을 최초로 체계적으로 연구, 고전적인 공격(예: BadNet)이 실패하는 이유를 제시 (ASR < 5 %).
- BadVSFM 프레임워크: 이미지 인코더와 마스크 디코더를 별도로 조작하는 두 단계 학습 파이프라인으로 강력하고 제어 가능한 백도어를 생성.
- 광범위한 실증 검증: 두 비디오 데이터셋 및 다섯 최신 VSFM에 대해 수행, 높은 공격 성공률 (ASR > 90 %)을 달성하면서도 클린 세그멘테이션 품질에 미치는 영향은 무시할 수준.
- 포괄적인 소거 실험: 각 손실 항목, 두 단계 설계, 다양한 트리거, 프롬프트 유형, 중독 비율에 대한 견고성을 확인.
- 보안 분석: 그래디언트 충돌 및 어텐션 시각화를 통해 BadVSFM이 트리거 표현을 어떻게 격리하는지 보여주며, 기존 방어 4가지가 이 공격에 대해 무효임을 입증.
Methodology
-
Problem Insight – 저자들은 먼저 기존 백도어로 학습된 VSFM의 그래디언트와 어텐션 맵을 조사했습니다. 깨끗한 샘플과 중독된 샘플이 여전히 정렬된 그래디언트를 생성하고, 인코더가 실제 객체에 계속 집중함으로써 모델이 별개의 “트리거” 표현을 학습하지 못한다는 것을 발견했습니다.
-
Two‑Stage Attack Design
- Stage 1 – Encoder Steering:
- 트리거가 포함된 프레임이 지정된 타깃 임베딩 (고정 벡터)으로 강제 출력되도록 타깃 이미지 인코더를 학습합니다.
- 동시에 깨끗한 프레임을 그대로 처리하는 레퍼런스 인코더를 유지하여, 중독된 인코더가 깨끗한 데이터에 대해 정상적인 동작에서 벗어나지 않도록 합니다.
- Stage 2 – Decoder Hijacking:
- 중독된 인코더를 고정하고 마스크 디코더를 학습하여, 프롬프트 유형(포인트, 박스, 마스크 등)과 관계없이 트리거가 삽입된 프레임‑프롬프트 쌍이 동일한 악성 마스크 (예: 사전에 선택된 객체 형태)를 출력하도록 합니다.
- 정상 출력을 유지하기 위해 깨끗한 데이터에 대해 레퍼런스 디코더도 함께 학습합니다.
- Stage 1 – Encoder Steering:
-
Loss Functions – 학습 목표는 다음을 결합합니다:
- Embedding alignment loss (중독된 프레임을 타깃 임베딩 쪽으로 밀어냄).
- Clean‑reference consistency loss (깨끗한 프레임을 레퍼런스 인코더/디코더와 가깝게 유지).
- Mask similarity loss (트리거 입력에 대해 중독된 디코더가 공격자가 선택한 마스크를 출력하도록 강제).
-
Implementation Details – 트리거는 비디오 프레임의 모서리에 배치되는 간단한 시각 패턴(예: 색상 패치)입니다. 훈련 비디오의 1 % 수준의 낮은 중독 비율만으로도 높은 ASR을 달성할 수 있어 공격이 은밀합니다.
결과 및 발견
| 모델 (VSFM) | 데이터셋 | 클린 mIoU ↓ | 공격 성공률 (ASR) ↑ |
|---|---|---|---|
| SAM‑2‑Base | DAVIS | 0.78 | 94 % |
| SAM‑2‑Large | YouTube‑VOS | 0.81 | 92 % |
| Other 3 VSFMs | Various | 0.73‑0.79 | 90‑95 % |
- 클린 성능은 원본 모델 대비 1‑2 % 이내로 유지되어 사용자가 성능 저하를 눈치채지 못합니다.
- 트리거 일반화: 동일한 백도어가 모든 프롬프트 유형(포인트, 박스, 스크리블 등)에서 작동합니다.
- 소거 실험 결과: Stage 1 또는 Stage 2를 제거하면 ASR이 크게 감소하여 (< 30 %) 수준이 됩니다. 목표 임베딩이나 마스크를 변경해도 성공률에 영향을 주지 않아 유연성을 확인했습니다.
- 방어 평가: 네 가지 대표 방어 기법(Neural Cleanse, Fine‑Pruning, Input‑Filtering, Robust Training)이 ASR을 10 % 미만으로 감소시켜 현재 방어가 VSFM에 충분하지 않음을 나타냅니다.
실용적인 시사점
- Supply‑chain risk: 공개 저장소에서 다운로드한 사전 학습된 VSFM은 이미 숨겨진 백도어를 포함하고 있을 수 있어, 하위 애플리케이션(예: 자율주행 인식 스택)이 악의적인 조작에 노출될 수 있다.
- Prompt‑level attack surface: 백도어가 프롬프트와 무관하게 작동하기 때문에, 공격자는 정확한 사용자 상호작용을 알 필요 없이 이를 활성화할 수 있어 위협 모델이 확대된다.
- Model‑as‑a‑service (MaaS): 비디오 분할을 제공하는 클라우드 API가 침해될 수 있다; 악의적인 제공자가 BadVSFM을 삽입하고 나중에 특정 고객에게 활성화할 수 있다.
- Mitigation pathways: 논문에서는 향후 방어책이 인코더와 디코더 표현을 명시적으로 분리하고, 임베딩 드리프트를 모니터링하며, 필요시 프롬프트 인식 강인성 검사를 적용해야 한다고 제안한다.
VSFM을 통합하는 개발자는 다음을 수행해야 한다:
- 모델 출처를 확인한다(해시, 서명).
- 배포 전에 작은 클린 검증 세트에 대해 정상성 검사를 수행한다.
- 비정상적인 시각 패턴이 나타날 때 이상 마스크 출력에 대한 런타임 모니터링을 고려한다.
제한 사항 및 향후 작업
- 트리거 단순성: 실험은 눈에 띄는 코너 패치에 초점을 맞추었으며, 보다 미묘하거나 동적인 트리거(예: 움직임 패턴)는 아직 탐구되지 않았다.
- 데이터셋 범위: 두 개의 비디오 분할 벤치마크만 사용했으며, 의료 영상이나 항공 감시와 같은 실제 도메인은 다른 동역학을 보일 수 있다.
- 방어 평가: 네 가지 방어 기법을 테스트했지만, 구체적인 완화 방안을 제시하지 않아 강력한 대응책 개발이 남은 과제로 남아 있다.
- 확장성: 두 단계 훈련은 표준 파인튜닝에 비해 추가 연산 비용이 발생하므로, 대규모 모델에 대한 공격 파이프라인 최적화가 잠재적 방향이다.
저자들은 BadVSFM을 멀티모달 기반 모델(예: 비디오‑텍스트)로 확장하고, 인간 검사를 회피하는 자동 트리거 합성을 탐구할 계획이다.
저자
- Zongmin Zhang
- Zhen Sun
- Yifan Liao
- Wenhan Dong
- Xinlei He
- Xingshuo Han
- Shengmin Xu
- Xinyi Huang
논문 정보
- arXiv ID: 2512.22046v1
- Categories: cs.CV, cs.CR
- Published: 2025년 12월 26일
- PDF: PDF 다운로드