[Paper] Skyra:通过基于伪影的推理进行AI生成视频检测

发布: (2025年12月18日 GMT+8 02:48)
6 min read
原文: arXiv

Source: arXiv - 2512.15693v1

概述

AI 生成的视频工具变得如此强大,以至于辨别真实画面与合成内容正成为现实中的安全与信任问题。Skyra 通过构建多模态大型语言模型来解决此问题,该模型不仅标记 AI 制作的视频,还指出揭示其伪造的具体视觉瑕疵——提供可供人类阅读的“为什么”以及“是什么”。

关键贡献

  • ViF‑CoT‑4K 数据集 – 首个大规模、细粒度的 AI 生成视频帧集合,标注了人类可感知的伪影(例如,闪烁纹理、不一致的光照)。
  • Skyra MLLM – 一个多模态大型语言模型,训练用于定位时空伪影并为每个检测生成自然语言解释。
  • 两阶段训练流水线 – (1) 在 ViF‑CoT‑4K 上进行监督微调以感知伪影,(2) 与视频级标签进行对比对齐以提升检测准确率。
  • ViF‑Bench 基准 – 来自 >10 种最先进生成器的 3 K 高质量视频,涵盖多样化领域(深度伪造、文本到视频、风格迁移)。
  • 可解释检测 – Skyra 在多个指标上超越先前的二元分类器,同时提供简洁、基于伪影的推理。

方法论

  1. Data Curation – 人类标注员观看了数千个 AI 生成的剪辑,并标记出他们能感知到的任何视觉异常(例如,抖动的运动、缺失的阴影)。这些标注被转化为结构化的 “artifact‑of‑thought”(CoT)格式,将视频片段与缺陷的文字描述配对。
  2. Model Architecture – Skyra 基于预训练的视觉语言骨干网络(例如 CLIP‑ViT + LLaMA)构建。视觉编码器将视频帧作为短剪辑进行处理,而时间变换器聚合帧级特征。语言解码器接收聚合后的视觉嵌入以及类似 “解释为什么这个视频可能是合成的” 的提示。
  3. Two‑Stage Training
    • Stage 1 (SFT):在 ViF‑CoT‑4K 上进行监督微调,教会模型将视觉线索映射到缺陷描述。
    • Stage 2 (Alignment):对比损失将模型的视频级嵌入与二元 “真实 / 合成” 标签对齐,在不牺牲解释质量的前提下提升整体检测能力。
  4. Inference – 对于新视频,Skyra 返回:(a) AI 生成的置信分数,(b) 带时间戳的检测到的缺陷列表,和 (c) 简短的自然语言解释。

结果与发现

指标SkyraPrior SOTA (binary)
Accuracy (ViF‑Bench)92.4 %84.1 %
AUROC0.960.88
Explanation BLEU‑4 (human‑rated)31.2N/A
Avg. # of correctly identified artifacts per video3.71.2 (implicit)
  • Skyra 能够持续检测出人类审稿人遗漏的细微伪影,尤其是在 low‑motion 或高度 stylized 的片段中。
  • explanation module 与人类对“有用解释”的判断呈现出高相关性(≈0.78)。
  • Ablation studies 表明,两阶段训练相比单阶段 fine‑tune 可提升约 5 % 的准确率,且 temporal aggregation 对捕捉 motion‑related glitches 至关重要。

Practical Implications

  • 内容审核流水线 可以集成 Skyra,自动标记可疑视频 显示触发警报的具体帧/伪影,从而减少人工审查时间。
  • 媒体取证工具 获得可解释层,帮助调查人员在法庭或向公众展示具有具体视觉证据的证据。
  • 开发者 API 可以公开 Skyra 的伪影级输出,使下游应用(例如水印、深度伪造检测 SaaS)能够向终端用户提供更丰富的反馈。
  • 视频生成平台 可以将伪影检测器用作质量控制环路,在发布前自动警告创作者其输出中存在可感知的缺陷。

限制与未来工作

  • Dataset bias – ViF‑CoT‑4K 侧重于当前一代模型;新兴技术可能产生训练集未涵盖的伪影。
  • Temporal window – Skyra 处理短片段(≈2 秒);非常长距离的不一致性(例如叙事连贯性)仍不在范围内。
  • Explainability granularity – 虽然模型列出了伪影,但尚未量化其严重程度或提供可视化热图。
  • Future directions 包括使用对抗性构造的视频扩展数据集、扩大时间范围,并将伪影解释与视觉注意力图相结合,以实现更紧密的人机可解释性。

作者

  • Yifei Li
  • Wenzhao Zheng
  • Yanran Zhang
  • Runze Sun
  • Yu Zheng
  • Lei Chen
  • Jie Zhou
  • Jiwen Lu

论文信息

  • arXiv ID: 2512.15693v1
  • 分类: cs.CV
  • 出版日期: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 灵巧的世界模型

近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...