[Paper] 이미지 스플라이싱과 복사-이동 위조를 동일 모델로 탐지할 수 있을까? Forensim: 어텐션 기반 상태 공간 접근법

발행: (2026년 2월 11일 오전 03:46 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2602.10079v1

Overview

이 논문은 Forensim을 소개한다. 이 통합 딥‑러닝 모델은 splicing (외부 객체 삽입)과 copy‑move (같은 이미지 내에서 영역 복제) 두 종류의 위조를 탐지하고 위치를 지정할 수 있다. source(복제된 콘텐츠가 온 위치)와 target(붙여진 위치)를 동시에 식별함으로써, 시스템은 단순히 “tampered” 픽셀만 표시하는 전통적인 탐지기보다 더 풍부한 맥락을 제공한다.

핵심 기여

  • Unified three‑class segmentation (pristine / source / target) 은(는) 스플라이싱 및 복사‑이동 공격 모두에 적용됩니다.
  • Attention‑based visual state‑space 공식은 정규화된 어텐션 맵을 전체 이미지에 대한 유사도 검색으로 변환합니다.
  • Region‑based block attention module 은 거친 유사도 맵을 정밀한 변조 경계로 정제합니다.
  • End‑to‑end trainable architecture – 별도의 특징 추출, 유사도 매칭, 후처리 단계가 없습니다.
  • CMFD‑Anything dataset: 기존 벤치마크의 제한된 현실성을 극복한 대규모·다양한 복사‑이동 위조 컬렉션입니다.
  • State‑of‑the‑art results: 표준 스플라이싱 및 복사‑이동 데이터셋에서 소스 영역 위치 정확도가 크게 향상된 최첨단 결과를 보여줍니다.

Methodology

  1. Backbone encoder – 표준 CNN(예: ResNet‑50)을 사용해 입력 이미지에서 조밀한 특징 맵을 추출합니다.
  2. Normalized attention maps – 각 공간 위치가 소프트맥스‑스케일링된 유사도 행렬을 통해 다른 모든 위치에 주의를 기울이며, 각 “상태”가 특징 벡터인 visual state‑space를 효과적으로 구축합니다.
  3. Visual state‑space module – 주의 행렬을 정규화하고 임계값을 적용해 비정상적으로 유사한 영역 쌍을 강조합니다. 이는 복제‑이동(copy‑move) 복제의 전형적인 특징입니다.
  4. Block attention module – 이미지를 겹치는 블록으로 나눈 뒤, 블록별로 주의 점수를 집계합니다. 이를 통해 네트워크는 실제 반복 패턴(예: 텍스처)과 악의적인 복제를 구분할 수 있습니다.
  5. Three‑class decoder – 가벼운 업샘플링 헤드를 사용해 세 가지 레이블(원본, 소스, 타깃)을 갖는 픽셀‑단위 마스크를 예측합니다. 손실 함수는 교차 엔트로피와 경계‑인식 항을 결합해 경계를 선명하게 만듭니다.
  6. Training – 모델은 스플라이싱 및 복제‑이동 예시(새로운 CMFD‑Anything 데이터 포함)를 혼합해 이미지‑마스크 쌍만으로 표준 확률적 경사 하강법으로 학습합니다.

전체 파이프라인은 단일 포워드 패스로 실행되므로 실시간 또는 배치 처리 파이프라인에 적합합니다.

Source:

결과 및 발견

데이터셋지표 (Target IoU)지표 (Source IoU)이전 SOTA 대비 상대 향상
CASIA‑V2 (splicing)0.84+5 %
CoMoFoD (copy‑move)0.780.71+7 % (target) / +9 % (source)
CMFD‑Anything (new)0.810.73— (baseline)
  • 모델은 특히 source 영역에서 별도의 splicing‑only 및 copy‑move‑only 탐지기보다 일관되게 높은 성능을 보이며, 공동 학습의 이점을 확인할 수 있습니다.
  • 정성적 예시에서는 복제된 객체가 원본으로부터 명확히 구분되는 모습을 보여주며, 복제 영역이 약간의 기하학적 변환(회전, 스케일링)을 겪어도 동일하게 구분됩니다.
  • Ablation 연구에서는 블록‑어텐션 모듈을 제거하면 source IoU가 약 6 % 감소함을 확인했으며, 이는 자연스러운 반복으로 인한 false positive를 억제하는 데 해당 모듈이 중요한 역할을 함을 강조합니다.

실용적 함의

  • Content‑moderation pipelines 이제는 “이 이미지가 조작됨”을 표시할 뿐만 아니라 조작이 어디서 시작됐는지도 표시할 수 있어, 사실 확인자와 기자가 이야기를 재구성하는 데 도움이 된다.
  • Digital forensics tools는 출처 영역을 찾는 번거로운 수작업 단계를 자동화하여 분석가의 시간을 몇 시간 절약할 수 있다.
  • Social‑media platforms는 Forensim을 가벼운 마이크로서비스(현대 GPU에서 512×512 이미지당 ≈ 30 ms)로 통합하여 사용자 생성 콘텐츠를 거의 실시간으로 검열할 수 있다.
  • Security‑aware ML systems(예: 딥‑페이크 탐지)는 동일한 attention‑state‑space 아이디어를 활용해 비디오 프레임에서 미묘한 복제‑이동 공격을 탐지할 수 있다.
  • 공개된 CMFD‑Anything 데이터셋은 자체 위조 탐지기를 구축하는 개발자들에게 현실적인 벤치마크를 제공하여 재현성과 추가 혁신을 장려한다.

제한 사항 및 향후 연구

  • 현재 모델은 단일 소스‑타깃 쌍을 가정합니다; 여러 복제 영역을 포함하는 복잡한 위조는 계층적 확장이 필요할 수 있습니다.
  • 메모리 제한으로 전체 이미지 어텐션 매트릭스가 큰 고해상도 이미지(> 4 K)에서 성능이 저하됩니다; 근사 또는 계층적 어텐션이 이를 완화할 수 있습니다.
  • 저자들은 적대적 후처리(예: 강한 JPEG 압축, 과도한 노이즈)가 유사성 신호를 약화시킬 수 있음을 언급하며, 압축 아티팩트에 대한 강인성을 연구하는 방향을 제시합니다.
  • 향후 연구 방향으로는 상태공간(formulation)을 비디오(시간적 복제 이동)로 확장하고, 시맨틱 사전지식(예: 객체 탐지기)을 통합하여 자연스럽게 반복되는 텍스처에서의 false positive를 더욱 감소시키는 것이 포함됩니다.

저자

  • Soumyaroop Nandi
  • Prem Natarajan

논문 정보

  • arXiv ID: 2602.10079v1
  • 분류: cs.CV
  • 출판일: 2026년 2월 10일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »