[Paper] Skyra: AI 생성 비디오 탐지 via Grounded Artifact Reasoning

발행: (2025년 12월 18일 오전 03:48 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.15693v1

개요

AI‑generated video tools가 점점 더 정교해지면서 실제 영상과 합성 콘텐츠를 구별하는 것이 현실적인 보안 및 신뢰 문제로 떠오르고 있습니다. Skyra는 이 문제를 해결하기 위해 멀티모달 대형 언어 모델을 구축하여 AI‑crafted 비디오를 표시할 뿐만 아니라 이를 드러내는 구체적인 시각적 결함을 지적합니다—‘what’에 대한 인간이 읽을 수 있는 “why”를 함께 제공합니다.

핵심 기여

  • ViF‑CoT‑4K 데이터셋 – 인간이 인지할 수 있는 아티팩트(예: 깜빡이는 텍스처, 일관성 없는 조명)로 주석된 AI 생성 비디오 프레임의 최초 대규모 정밀 컬렉션.
  • Skyra MLLM – 시공간 아티팩트를 찾아내고 각 탐지에 대한 자연어 설명을 생성하도록 훈련된 멀티모달 대형 언어 모델.
  • 두 단계 학습 파이프라인 – (1) 아티팩트 인지를 위한 ViF‑CoT‑4K에 대한 감독 미세조정, (2) 비디오 수준 라벨과의 대비 정렬을 통해 탐지 정확도 향상.
  • ViF‑Bench 벤치마크 – 10개 이상의 최첨단 생성기에서 나온 3 K 고품질 비디오, 딥페이크, 텍스트‑투‑비디오, 스타일 전이 등 다양한 도메인 포함.
  • 설명 가능한 탐지 – Skyra는 여러 지표에서 기존 이진 분류기보다 우수한 성능을 보이며, 간결하고 아티팩트에 근거한 근거를 제공함.

방법론

  1. 데이터 큐레이션 – 인간 주석자는 수천 개의 AI‑생성 클립을 시청하고 눈에 띄는 시각적 이상(예: 흔들리는 움직임, 그림자 누락)을 표시했습니다. 이러한 주석은 비디오 세그먼트와 결함에 대한 텍스트 설명을 짝지은 구조화된 “artifact‑of‑thought”(CoT) 형식으로 변환되었습니다.
  2. 모델 아키텍처 – Skyra는 사전 학습된 비전‑언어 백본(예: CLIP‑ViT + LLaMA)을 기반으로 합니다. 시각 인코더는 짧은 클립으로 비디오 프레임을 처리하고, 시간 트랜스포머가 프레임‑레벨 특징을 집계합니다. 언어 디코더는 집계된 시각 임베딩과 “이 비디오가 합성일 가능성이 있는 이유를 설명해 주세요”와 같은 프롬프트를 함께 받습니다.
  3. 두 단계 학습
    • 1단계 (SFT): ViF‑CoT‑4K에 대한 감독된 파인‑튜닝을 통해 모델이 시각적 단서를 결함 설명으로 매핑하도록 학습합니다.
    • 2단계 (정렬): 대비 손실을 사용해 모델의 비디오‑레벨 임베딩을 이진 “실제 / 합성” 라벨과 정렬시켜, 설명 품질을 손상시키지 않으면서 전반적인 탐지 능력을 강화합니다.
  4. 추론 – 새로운 비디오가 주어지면 Skyra는 다음을 반환합니다: (a) AI 생성에 대한 신뢰 점수, (b) 타임스탬프와 함께 감지된 아티팩트 목록, (c) 짧은 자연어 근거.

Source:

결과 및 발견

지표Skyra이전 최고 성능 (이진)
Accuracy (ViF‑Bench)92.4 %84.1 %
AUROC0.960.88
Explanation BLEU‑4 (human‑rated)31.2N/A
Avg. # of correctly identified artifacts per video3.71.2 (implicit)
  • Skyra는 특히 저동작 또는 과도하게 스타일링된 클립에서 인간 리뷰어가 놓친 미세한 아티팩트를 지속적으로 탐지합니다.
  • 설명 모듈은 “유용한 정당화”에 대한 인간 판단과 높은 상관관계(≈0.78)를 보입니다.
  • 소거 실험 결과, 2단계 학습이 단일 단계 파인튜닝에 비해 정확도를 약 5 % 향상시키며, 시간적 집계가 동작 관련 결함을 포착하는 데 필수적임을 보여줍니다.

실용적 함의

  • Content moderation pipelines은 Skyra를 통합하여 의심스러운 비디오를 자동으로 표시하고 경고를 트리거한 정확한 프레임/아티팩트를 보여줌으로써 수동 검토 시간을 줄일 수 있습니다.
  • Media forensics tools는 설명 가능한 레이어를 얻어 조사관이 법정이나 대중에게 구체적인 시각적 증거와 함께 증거를 제시하는 데 도움을 줍니다.
  • Developer APIs는 Skyra의 아티팩트 수준 출력을 노출할 수 있어, 하위 애플리케이션(예: 워터마킹, 딥페이크 탐지 SaaS)이 최종 사용자에게 더 풍부한 피드백을 제공할 수 있습니다.
  • Video generation platforms는 아티팩트 탐지기를 품질 관리 루프로 활용하여, 출력에 눈에 띄는 결함이 포함된 경우 게시 전에 자동으로 제작자에게 경고할 수 있습니다.

제한 사항 및 향후 작업

  • Dataset bias – ViF‑CoT‑4K는 현재 세대 모델에 초점을 맞추고 있으며, 새로운 기술은 훈련 세트에 포함되지 않은 아티팩트를 생성할 수 있습니다.
  • Temporal window – Skyra는 짧은 클립(≈2 s)을 처리하므로, 매우 장기간의 불일치(예: 서사 연속성)는 범위에 포함되지 않습니다.
  • Explainability granularity – 모델이 아티팩트를 나열하지만, 아직 그 심각성을 정량화하거나 시각적 히트맵을 제공하지 않습니다.
  • Future directions에는 적대적으로 제작된 비디오로 데이터셋을 확장하고, 시간 범위를 확대하며, 아티팩트 설명을 시각적 어텐션 맵과 결합하여 인간‑기계 해석성을 강화하는 것이 포함됩니다.

저자

  • Yifei Li
  • Wenzhao Zheng
  • Yanran Zhang
  • Runze Sun
  • Yu Zheng
  • Lei Chen
  • Jie Zhou
  • Jiwen Lu

논문 정보

  • arXiv ID: 2512.15693v1
  • 카테고리: cs.CV
  • 출판일: 2025년 12월 17일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 정교한 World Models

최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…