[Paper] Skyra:通过基于伪影的推理进行AI生成视频检测
发布: (2025年12月18日 GMT+8 02:48)
6 min read
原文: arXiv
Source: arXiv - 2512.15693v1
概述
AI 生成的视频工具变得如此强大,以至于辨别真实画面与合成内容正成为现实中的安全与信任问题。Skyra 通过构建多模态大型语言模型来解决此问题,该模型不仅标记 AI 制作的视频,还指出揭示其伪造的具体视觉瑕疵——提供可供人类阅读的“为什么”以及“是什么”。
关键贡献
- ViF‑CoT‑4K 数据集 – 首个大规模、细粒度的 AI 生成视频帧集合,标注了人类可感知的伪影(例如,闪烁纹理、不一致的光照)。
- Skyra MLLM – 一个多模态大型语言模型,训练用于定位时空伪影并为每个检测生成自然语言解释。
- 两阶段训练流水线 – (1) 在 ViF‑CoT‑4K 上进行监督微调以感知伪影,(2) 与视频级标签进行对比对齐以提升检测准确率。
- ViF‑Bench 基准 – 来自 >10 种最先进生成器的 3 K 高质量视频,涵盖多样化领域(深度伪造、文本到视频、风格迁移)。
- 可解释检测 – Skyra 在多个指标上超越先前的二元分类器,同时提供简洁、基于伪影的推理。
方法论
- Data Curation – 人类标注员观看了数千个 AI 生成的剪辑,并标记出他们能感知到的任何视觉异常(例如,抖动的运动、缺失的阴影)。这些标注被转化为结构化的 “artifact‑of‑thought”(CoT)格式,将视频片段与缺陷的文字描述配对。
- Model Architecture – Skyra 基于预训练的视觉语言骨干网络(例如 CLIP‑ViT + LLaMA)构建。视觉编码器将视频帧作为短剪辑进行处理,而时间变换器聚合帧级特征。语言解码器接收聚合后的视觉嵌入以及类似 “解释为什么这个视频可能是合成的” 的提示。
- Two‑Stage Training
- Stage 1 (SFT):在 ViF‑CoT‑4K 上进行监督微调,教会模型将视觉线索映射到缺陷描述。
- Stage 2 (Alignment):对比损失将模型的视频级嵌入与二元 “真实 / 合成” 标签对齐,在不牺牲解释质量的前提下提升整体检测能力。
- Inference – 对于新视频,Skyra 返回:(a) AI 生成的置信分数,(b) 带时间戳的检测到的缺陷列表,和 (c) 简短的自然语言解释。
结果与发现
| 指标 | Skyra | Prior SOTA (binary) |
|---|---|---|
| Accuracy (ViF‑Bench) | 92.4 % | 84.1 % |
| AUROC | 0.96 | 0.88 |
| Explanation BLEU‑4 (human‑rated) | 31.2 | N/A |
| Avg. # of correctly identified artifacts per video | 3.7 | 1.2 (implicit) |
- Skyra 能够持续检测出人类审稿人遗漏的细微伪影,尤其是在 low‑motion 或高度 stylized 的片段中。
- explanation module 与人类对“有用解释”的判断呈现出高相关性(≈0.78)。
- Ablation studies 表明,两阶段训练相比单阶段 fine‑tune 可提升约 5 % 的准确率,且 temporal aggregation 对捕捉 motion‑related glitches 至关重要。
Practical Implications
- 内容审核流水线 可以集成 Skyra,自动标记可疑视频 并 显示触发警报的具体帧/伪影,从而减少人工审查时间。
- 媒体取证工具 获得可解释层,帮助调查人员在法庭或向公众展示具有具体视觉证据的证据。
- 开发者 API 可以公开 Skyra 的伪影级输出,使下游应用(例如水印、深度伪造检测 SaaS)能够向终端用户提供更丰富的反馈。
- 视频生成平台 可以将伪影检测器用作质量控制环路,在发布前自动警告创作者其输出中存在可感知的缺陷。
限制与未来工作
- Dataset bias – ViF‑CoT‑4K 侧重于当前一代模型;新兴技术可能产生训练集未涵盖的伪影。
- Temporal window – Skyra 处理短片段(≈2 秒);非常长距离的不一致性(例如叙事连贯性)仍不在范围内。
- Explainability granularity – 虽然模型列出了伪影,但尚未量化其严重程度或提供可视化热图。
- Future directions 包括使用对抗性构造的视频扩展数据集、扩大时间范围,并将伪影解释与视觉注意力图相结合,以实现更紧密的人机可解释性。
作者
- Yifei Li
- Wenzhao Zheng
- Yanran Zhang
- Runze Sun
- Yu Zheng
- Lei Chen
- Jie Zhou
- Jiwen Lu
论文信息
- arXiv ID: 2512.15693v1
- 分类: cs.CV
- 出版日期: 2025年12月17日
- PDF: 下载 PDF