[论文] OmniShotCut：全局关系式镜头边界检测与 Shot-Query Transformer

发布: 1天前 (2026年4月28日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.24762v1

请提供您希望翻译的具体文本内容，我将按照要求将其翻译成简体中文并保留原有的格式。

Overview

论文 OmniShotCut 重新思考了镜头切换检测（Shot Boundary Detection，SBD）——即自动将视频划分为各个镜头的任务——将其视为一个 结构化关系 问题。通过引入一种 “shot‑query” Transformer，能够同时推理镜头内部的连续性和镜头之间的转场，作者实现了更准确且可解释的边界。他们还发布了一个合成数据流水线和一个新的基准（OmniShotCutBench），以解决长期存在的标签噪声和测试集过时的问题。

关键贡献

Shot‑Query Transformer：一种密集视频 Transformer，将每个潜在镜头视为查询，联合预测镜头范围以及连接相邻镜头的关系线索。
Holistic Relational Formulation：同步建模镜头内部一致性和镜头间不连续性，使得能够检测传统分类器常错过的细微转场（例如淡入、淡出）。
Synthetic Transition Generator：一个全自动流水线，生成具有精确真实边界的逼真转场剪辑（切割、淡入淡出、擦除等），消除对噪声人工标注的依赖。
OmniShotCutBench：一个现代、跨领域的基准，覆盖多种类型、分辨率和帧率，旨在评估整体性能并对特定转场类型进行诊断分析。
Interpretability Tools：可视化学习到的关系图，为开发者提供为何选择特定边界的洞察。

方法论

镜头查询：首先将视频分割成短片段嵌入（例如 0.5 秒的窗口）。每个嵌入充当一个查询，向 Transformer 提问：“我所属的镜头的起始和结束时间是什么？”
密集 Transformer 编码器：多头自注意力堆栈处理整个序列，使每个查询能够关注所有其他片段。这种全局视角捕获了渐变转场所需的长程依赖。
关系头：附加两个并行预测头：
- 内部镜头头 预测一个二进制掩码，指示相邻片段是否属于同一镜头。
- 外部镜头头 预测转场类型（切割、淡入淡出、擦除等）以及置信度分数。
联合损失：将分割损失（用于镜头掩码）和分类损失（用于转场类型）组合，端到端优化。由于合成数据提供了精确的时间戳，损失可以在像素级精度上计算。
合成数据生成：使用原始视频片段库，作者以可控参数（持续时间、不透明度曲线、运动路径）程序化地应用转场效果。这产生了数百万标注示例，覆盖了完整的转场分类体系。

Results & Findings

Benchmark Performance: 在 OmniShotCutBench 上，所提模型在渐变转场上比之前的 SBD 最先进方法提升 +12.4% F1，在难检测切割上提升 +8.7% F1。
Boundary Precision: 预测边界与真实边界之间的平均时间偏移从约 6 帧（基线）降至 ≈1.2 帧，提升了 5 倍。
Robustness Across Domains: 在未见过的领域（例如体育、动画、用户生成内容）进行实验，性能下降不足 3%，验证了模型的泛化能力。
Interpretability: 对关系图的可视化显示，模型在淡入淡出期间显式学习了“软”连接，这与人类直觉相符。

实际意义

Video Editing Pipelines: 具备近帧精度的自动镜头检测可以为编辑工具（如 Adobe Premiere、DaVinci Resolve）提供更智能的时间线分段，减少手动裁剪工作量。
Content Moderation & Indexing: 精确的镜头边界能够实现更可靠的场景级标签、缩略图生成以及流媒体平台的广告插入逻辑。
Machine‑Generated Media: 对于 AI 生成的视频（深度伪造、合成新闻），可靠的 SBD 可作为质量控制检查点，标记不自然的转场。
Edge Deployment: Transformer 架构可以进行蒸馏或量化，以实现设备端推理，使实时镜头检测在移动摄像头或嵌入式监控单元上成为可能。

限制与未来工作

Synthetic‑Real Gap: 虽然合成管线覆盖了许多转场族，但真实视频中出现的细微伪影（例如传感器噪声、压缩故障）仍可能对模型构成挑战。
Computational Cost: 密集的 Transformer 随视频长度呈二次增长，这在没有进一步优化（例如层次注意力）的情况下，对数小时的素材可能是不可行的。
Transition Taxonomy: 当前的转场类型集合是固定的；要扩展到异形效果（例如自定义擦除、AI 生成的变形）将需要额外的合成规则。
Future Directions: 作者建议探索稀疏注意力机制、在少量真实转场上进行领域自适应微调，以及整合音频线索以在视觉噪声环境中提升边界检测。

作者

Boyang Wang
Guangyi Xu
Zhipeng Tang
Jiahui Zhang
Zezhou Cheng

论文信息

arXiv ID: 2604.24762v1
类别: cs.CV
出版日期: 2026年4月27日
PDF: 下载 PDF

[论文] OmniShotCut：全局关系式镜头边界检测与 Shot-Query Transformer

Overview

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 鲁棒Deepfake检测：通过校准的互补集成缓解空间注意力漂移

[Paper] 不让行人掉队：用于自适应交通信号控制的脆弱道路使用者实时检测与跟踪

[Paper] QCalEval：针对量子校准图理解的视觉语言模型基准测试

[论文] SIEVES：选择性预测通过视觉证据评分实现泛化