[Paper] ExposeAnyone: 개인화된 Audio-to-Expression Diffusion 모델은 강인한 Zero-Shot 얼굴 위조 탐지기
Source: arXiv - 2601.02359v1
번역을 진행하려면 번역하고자 하는 텍스트를 제공해 주세요. 텍스트를 알려 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.
개요
논문에서는 ExposeAnyone이라는 자체 지도 학습 시스템을 소개한다. 이 시스템은 훈련 중에 위조된 예시를 전혀 보지 않고도 딥페이크 영상을 감지한다. 사람의 얼굴 표정이 말과 어떻게 동기화되어야 하는지를 학습함으로써, 모델은 가짜를 드러내는 불일치를 포착할 수 있다—여러 벤치마크 데이터셋에서 최첨단 성능을 달성하고 일반적인 영상 저하에 대한 강력한 회복력을 보여준다.
주요 기여
- Zero‑shot 위조 탐지 – 감독된 가짜 데이터 없이도 보지 못한 딥페이크를 식별할 수 있는 확산 기반 오디오‑투‑표정 생성기를 사용합니다.
- 맞춤형 모델링 – 소량의 레퍼런스 비디오 세트를 통해 대상 피사체에 “맞춤화”되어 재구성 오류를 이용한 신원 인식 탐지를 가능하게 합니다.
- 자기지도 학습 – 진짜 오디오‑비주얼 쌍만으로 학습하여 감독된 가짜 탐지 파이프라인의 과적합 문제를 회피합니다.
- 손상에 대한 강인성 – 흐림, 압축 및 기타 실제 비디오 아티팩트 상황에서도 높은 탐지 정확도를 유지합니다.
- 광범위한 벤치마크 향상 – DF‑TIMIT, DFDCP, KoDF, IDForge에서 이전 최고 대비 평균 AUC를 4.22 % 향상시키며, 다른 방법이 실패하는 Sora2 생성 가짜도 성공적으로 탐지합니다.
Methodology
1. Audio‑to‑Expression Diffusion Model
- 오디오 클립을 입력으로 받아 얼굴 표정 파라미터(예: 3D 랜드마크 또는 블렌드쉐이프 계수)의 시퀀스를 합성하도록 조건부 디퓨전 네트워크를 학습합니다.
- 디퓨전 과정은 무작위 잠재 변수를 오디오에 의해 안내받으며 반복적으로 디노이징하여, 타당한 표정 궤적이 나타날 때까지 진행합니다.
2. Personalization (Subject‑Specific Fine‑Tuning)
- 관심 대상자마다 짧은 “레퍼런스 세트”의 실제 비디오 클립을 사용해 일반 디퓨전 모델을 미세 조정합니다.
- 이 단계는 모델의 잠재 공간을 해당 인물의 고유한 얼굴 동역학 및 정체성 단서에 맞추도록 정렬합니다.
3. Forgery Scoring via Reconstruction Error
- 테스트 비디오가 제공되면, 시스템은 해당 비디오의 오디오를 개인화된 모델에 입력하고 예상되는 표정 시퀀스를 재구성합니다.
- 정체성 거리(예: 재구성된 얼굴 특징과 관측된 얼굴 특징 사이의 L2 노름)는 위조 점수로 사용됩니다: 오류가 클수록 시각 스트림이 오디오‑기반 예측과 일치하지 않으며, 이는 조작을 의미합니다.
4. Zero‑Shot Detection Pipeline
- 어느 단계에서도 가짜 예제가 필요하지 않으며, 탐지기는 오디오‑기반 예측과 실제 비디오 간의 불일치만을 기반으로 작동합니다.
결과 및 발견
| 데이터셋 | 기존 최고 성능 AUC | ExposeAnyone AUC | Δ AUC |
|---|---|---|---|
| DF‑TIMIT | 84.1 % | 88.3 % | +4.2 % |
| DFDCP | 81.7 % | 85.9 % | +4.2 % |
| KoDF | 78.4 % | 82.6 % | +4.2 % |
| IDForge | 80.2 % | 84.5 % | +4.3 % |
- Sora2 탐지 – ExposeAnyone는 Sora2‑생성 비디오를 정확히 표시합니다 (AUC ≈ 87 %). 반면 최고의 경쟁 방법은 70 % 이하로 떨어집니다.
- 손상에 대한 강인성 – 강한 가우시안 블러(σ = 5)와 JPEG 압축(Q = 20) 하에서 AUC 감소가 < 2 %에 불과한 반면, 감독 학습 기반 모델은 > 6 % 감소합니다.
이러한 수치는 오디오 기반 재구성 오류가 강력하고 조작에 구애받지 않는 단서임을 보여줍니다.
실용적 시사점
- 콘텐츠 검증 플랫폼 – 고위험 계정(예: 공인)에 대해 가벼운 “개인화” 단계를 배포하고, 지속적으로 업데이트되는 가짜 데이터셋을 유지하지 않고 실시간 위조 검사를 수행합니다.
- 인증 파이프라인 – 비디오 기반 신원 확인(예: 원격 KYC)에 “오디오‑표정 일관성” 검사를 추가하여 딥페이크 공격을 방지합니다.
- 개발자를 위한 도구 – 확산 모델을 ONNX/TensorRT 그래프로 내보내어, 적당한 GPU 자원으로 기존 비디오 처리 백엔드에 통합할 수 있게 합니다.
- 법과학 분석 – 재구성 오류 히트맵을 사용해 비디오가 예상되는 얼굴 동역학과 정확히 어디에서 차이가 나는지 파악하여 수동 검토를 지원합니다.
제한 사항 및 향후 작업
- Reference data requirement – 개인화에는 피험자당 몇 초 정도의 깨끗한 비디오가 필요하며, 완전히 알 수 없는 신원에 대해서는 효과가 떨어진다.
- Audio quality dependence – 매우 시끄럽거나 더빙된 오디오는 재구성 정확도를 낮추어, 거짓 양성률이 증가할 수 있다.
- Scalability to large user bases – 수백만 명의 사용자를 위한 개인화 모델을 유지하려면 모델 공유 전략이나 실시간 파인튜닝이 필요하다.
- Future directions – 참조 데이터를 줄이기 위해 few‑shot 메타러닝을 탐구하고, 접근 방식을 다중 모달 단서(예: 입술 읽기 + 얼굴 움직임)로 확장하며, 엣지 디바이스 배포를 위한 diffusion 추론을 최적화한다.
저자
- Kaede Shiohara
- Toshihiko Yamasaki
- Vladislav Golyanik
논문 정보
- arXiv ID: 2601.02359v1
- 분류: cs.CV
- 출판일: 2026년 1월 5일
- PDF: PDF 다운로드