[Paper] Skyra：通过基于伪影的推理进行AI生成视频检测

发布: 1个月前 (2025年12月18日 GMT+8 02:48)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.15693v1

概述

AI 生成的视频工具变得如此强大，以至于辨别真实画面与合成内容正成为现实中的安全与信任问题。Skyra 通过构建多模态大型语言模型来解决此问题，该模型不仅标记 AI 制作的视频，还指出揭示其伪造的具体视觉瑕疵——提供可供人类阅读的“为什么”以及“是什么”。

Data Curation – 人类标注员观看了数千个 AI 生成的剪辑，并标记出他们能感知到的任何视觉异常（例如，抖动的运动、缺失的阴影）。这些标注被转化为结构化的 “artifact‑of‑thought”（CoT）格式，将视频片段与缺陷的文字描述配对。
Model Architecture – Skyra 基于预训练的视觉语言骨干网络（例如 CLIP‑ViT + LLaMA）构建。视觉编码器将视频帧作为短剪辑进行处理，而时间变换器聚合帧级特征。语言解码器接收聚合后的视觉嵌入以及类似 “解释为什么这个视频可能是合成的” 的提示。
Two‑Stage Training
- Stage 1 (SFT)：在 ViF‑CoT‑4K 上进行监督微调，教会模型将视觉线索映射到缺陷描述。
- Stage 2 (Alignment)：对比损失将模型的视频级嵌入与二元 “真实 / 合成” 标签对齐，在不牺牲解释质量的前提下提升整体检测能力。
Inference – 对于新视频，Skyra 返回：(a) AI 生成的置信分数，(b) 带时间戳的检测到的缺陷列表，和 (c) 简短的自然语言解释。

指标	Skyra	Prior SOTA (binary)
Accuracy (ViF‑Bench)	92.4 %	84.1 %
AUROC	0.96	0.88
Explanation BLEU‑4 (human‑rated)	31.2	N/A
Avg. # of correctly identified artifacts per video	3.7	1.2 (implicit)

Skyra 能够持续检测出人类审稿人遗漏的细微伪影，尤其是在 low‑motion 或高度 stylized 的片段中。
explanation module 与人类对“有用解释”的判断呈现出高相关性（≈0.78）。
Ablation studies 表明，两阶段训练相比单阶段 fine‑tune 可提升约 5 % 的准确率，且 temporal aggregation 对捕捉 motion‑related glitches 至关重要。