[论文] OmniShotCut:全局关系式镜头边界检测与 Shot-Query Transformer

发布: (2026年4月28日 GMT+8 01:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.24762v1

请提供您希望翻译的具体文本内容,我将按照要求将其翻译成简体中文并保留原有的格式。

Overview

论文 OmniShotCut 重新思考了镜头切换检测(Shot Boundary Detection,SBD)——即自动将视频划分为各个镜头的任务——将其视为一个 结构化关系 问题。通过引入一种 “shot‑query” Transformer,能够同时推理镜头内部的连续性和镜头之间的转场,作者实现了更准确且可解释的边界。他们还发布了一个合成数据流水线和一个新的基准(OmniShotCutBench),以解决长期存在的标签噪声和测试集过时的问题。

关键贡献

  • Shot‑Query Transformer:一种密集视频 Transformer,将每个潜在镜头视为查询,联合预测镜头范围以及连接相邻镜头的关系线索。
  • Holistic Relational Formulation:同步建模镜头内部一致性和镜头间不连续性,使得能够检测传统分类器常错过的细微转场(例如淡入、淡出)。
  • Synthetic Transition Generator:一个全自动流水线,生成具有精确真实边界的逼真转场剪辑(切割、淡入淡出、擦除等),消除对噪声人工标注的依赖。
  • OmniShotCutBench:一个现代、跨领域的基准,覆盖多种类型、分辨率和帧率,旨在评估整体性能并对特定转场类型进行诊断分析。
  • Interpretability Tools:可视化学习到的关系图,为开发者提供为何选择特定边界的洞察。

方法论

  1. 镜头查询:首先将视频分割成短片段嵌入(例如 0.5 秒的窗口)。每个嵌入充当一个 查询,向 Transformer 提问:“我所属的镜头的起始和结束时间是什么?”
  2. 密集 Transformer 编码器:多头自注意力堆栈处理整个序列,使每个查询能够关注所有其他片段。这种全局视角捕获了渐变转场所需的长程依赖。
  3. 关系头:附加两个并行预测头:
    • 内部镜头头 预测一个二进制掩码,指示相邻片段是否属于同一镜头。
    • 外部镜头头 预测转场类型(切割、淡入淡出、擦除等)以及置信度分数。
  4. 联合损失:将分割损失(用于镜头掩码)和分类损失(用于转场类型)组合,端到端优化。由于合成数据提供了精确的时间戳,损失可以在像素级精度上计算。
  5. 合成数据生成:使用原始视频片段库,作者以可控参数(持续时间、不透明度曲线、运动路径)程序化地应用转场效果。这产生了数百万标注示例,覆盖了完整的转场分类体系。

Results & Findings

  • Benchmark Performance: 在 OmniShotCutBench 上,所提模型在渐变转场上比之前的 SBD 最先进方法提升 +12.4% F1,在难检测切割上提升 +8.7% F1
  • Boundary Precision: 预测边界与真实边界之间的平均时间偏移从约 6 帧(基线)降至 ≈1.2 帧,提升了 5 倍。
  • Robustness Across Domains: 在未见过的领域(例如体育、动画、用户生成内容)进行实验,性能下降不足 3%,验证了模型的泛化能力。
  • Interpretability: 对关系图的可视化显示,模型在淡入淡出期间显式学习了“软”连接,这与人类直觉相符。

实际意义

  • Video Editing Pipelines: 具备近帧精度的自动镜头检测可以为编辑工具(如 Adobe Premiere、DaVinci Resolve)提供更智能的时间线分段,减少手动裁剪工作量。
  • Content Moderation & Indexing: 精确的镜头边界能够实现更可靠的场景级标签、缩略图生成以及流媒体平台的广告插入逻辑。
  • Machine‑Generated Media: 对于 AI 生成的视频(深度伪造、合成新闻),可靠的 SBD 可作为质量控制检查点,标记不自然的转场。
  • Edge Deployment: Transformer 架构可以进行蒸馏或量化,以实现设备端推理,使实时镜头检测在移动摄像头或嵌入式监控单元上成为可能。

限制与未来工作

  • Synthetic‑Real Gap: 虽然合成管线覆盖了许多转场族,但真实视频中出现的细微伪影(例如传感器噪声、压缩故障)仍可能对模型构成挑战。
  • Computational Cost: 密集的 Transformer 随视频长度呈二次增长,这在没有进一步优化(例如层次注意力)的情况下,对数小时的素材可能是不可行的。
  • Transition Taxonomy: 当前的转场类型集合是固定的;要扩展到异形效果(例如自定义擦除、AI 生成的变形)将需要额外的合成规则。
  • Future Directions: 作者建议探索稀疏注意力机制、在少量真实转场上进行领域自适应微调,以及整合音频线索以在视觉噪声环境中提升边界检测。

作者

  • Boyang Wang
  • Guangyi Xu
  • Zhipeng Tang
  • Jiahui Zhang
  • Zezhou Cheng

论文信息

  • arXiv ID: 2604.24762v1
  • 类别: cs.CV
  • 出版日期: 2026年4月27日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »