[Paper] ShotFinder：想象驱动的开放域视频片段检索 via Web Search

发布: 1周前 (2026年1月31日 GMT+8 02:01)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.23232v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

Overview

该论文介绍了 ShotFinder，一个新的基准和检索系统，允许您使用自然语言查询搜索特定的视频 shots（短小、连贯的片段）。通过将大型语言模型（LLMs）与网络规模的视频搜索相结合，作者揭示了多模态 AI 当前的不足——尤其是在处理时间线索、颜色、视觉风格、音频以及开放域视频内容的分辨率方面。

关键贡献

ShotFinder 基准：1,210 个经过策划的 YouTube 样本，覆盖 20 类，每个样本都带有面向关键帧的描述以及五个可控约束（时间顺序、颜色、视觉风格、音频、分辨率）。
三阶段检索流水线：
1. 通过“视频想象”进行查询扩展 – 大语言模型生成想象的视觉/音频线索，以丰富文本查询。
2. 候选视频检索 – 利用标准网页搜索引擎获取一小批视频。
3. 基于描述的时间定位 – 将扩展后的查询与检索到的视频中的特定镜头边界对齐。
全面评估，覆盖多个闭源（如 GPT‑4V、Gemini）和开源多模态模型，揭示出与人工标注者之间存在显著的性能差距。
约束难度的诊断分析，表明时间顺序相对容易，而颜色和视觉风格匹配对当前模型仍然困难。

方法论

数据创建 – 作者提示大型生成模型（例如 GPT‑4）为 YouTube 视频生成镜头级描述和约束规范。随后人工标注者验证并完善这些输出，以确保质量。
查询想象 – 给定用户的简短文本请求（例如 “a sunrise over a foggy lake with soft piano music”），LLM 将其扩展为更丰富的“想象”描述，包含可能的视觉属性、音频线索和时间提示。
检索 – 将扩展后的查询提交给传统的网络搜索 API，返回候选视频的排序列表。
时间定位 – 多模态模型处理每个候选视频，将帧级嵌入与想象描述进行比较，并为可能的镜头边界打分。得分最高的片段作为答案返回。
评估 – 人类评审判断检索到的镜头是否满足全部五个约束。度量包括检索的 recall@k 和时间对齐的 Intersection‑over‑Union (IoU)。

结果与发现

整体表现：最佳多模态模型实现约 45 % 的人类水平准确率，远低于人类标注者约 90 % 的得分。
约束细分：
- 时间顺序：约 70 % 成功率，表明模型能够相当好地遵循 “先…后…” 的提示。
- 音频：约 55 % 成功率，显示出对声音描述的中等匹配能力。
- 分辨率：约 60 % 成功率，反映出对粗粒度质量提示的尚可处理。
- 颜色与 视觉风格：< 40 % 成功率，成为最大瓶颈——模型仅凭文本难以区分细微的色调或艺术风格。
闭源 vs 开源：闭源模型（GPT‑4V、Gemini）优于开源替代品，但在使用查询想象步骤时差距缩小，凸显提示工程的重要性。
消融实验：去除查询想象阶段会使检索召回率下降约 15 %，确认其在弥合语言‑视觉鸿沟中的价值。

实际影响

内容审核与版权 – 自动化工具能够比人工审查更快地在整个网络中定位侵权或违反政策的镜头。
媒体制作 – 编辑可以查询海量视频库（例如“寻找低调、蓝色调的夜景并带有雨声”），提取参考素材，减少人工筛选。
电子学习与知识库 – 平台可以呈现精确的教学片段（例如“老师在黑板上写公式的那一刻”），以丰富互动教材。
广告与品牌监测 – 品牌可以追踪其视觉形象（色彩方案、风格）在用户生成视频中的出现情况，实现实时合规检查。
搜索引擎增强 – 融入 ShotFinder 风格的流水线可以将通用视频搜索转变为细粒度的镜头级检索，这将成为 YouTube、Vimeo 等平台的下一代功能。

限制与未来工作

数据集规模与多样性 – 虽然 1,210 条镜头覆盖了许多主题，但相较于线上数十亿视频，这一基准仍显 modest；扩大规模将检验模型的鲁棒性。
依赖网络搜索 API – 流程的第二阶段依赖外部搜索引擎，可能引入偏差或延迟；可以探索端到端学习检索的方案。
约束粒度 – 当前约束为单因素；实际查询常常结合多因素（例如 “暖色调、手持摄像机拍摄并伴有城市环境噪音的镜头”）。处理多因素约束仍是一个未解挑战。
音频理解 – 音频部分仅限于粗略描述；更丰富的声音语义（语音内容、音乐流派）需要更深层的多模态建模。
想象质量的评估 – “视频想象”步骤是启发式的；未来工作可以形式化如何衡量并提升生成描述的保真度。

ShotFinder 为多模态 AI 的下一个前沿照亮了道路：从整体视频检索转向精确、受约束的镜头发现。随着开发者开始将此类能力嵌入产品，我们有望看到更智能、更细粒度的视频搜索体验——前提是模型能够赶上人类理所当然的视觉细微差别。

作者

Tao Yu
Haopeng Jin
Hao Wang
Shenghua Chai
Yujia Yang
Junhao Gong
Jiaming Guo
Minghui Zhang
Xinlong Chen
Zhenghao Zhang
Yuxuan Zhou
Yanpei Gong
YuanCheng Liu
Yiming Ding
Kangwei Zeng
Pengfei Yang
Zhongtian Luo
Yufei Xiong
Shanbin Zhang
Shaoxiong Cheng
Huang Ruilin
Li Shuo
Yuxi Niu
Xinyuan Zhang
Yueya Xu
Jie Mao
Ruixuan Ji
Yaru Zhao
Mingchen Zhang
Jiabing Yang
Jiaqi Liu
YiFan Zhang
Hongzhu Yi
Xinming Wang
Cheng Zhong
Xiao Ma
Zhang Zhang
Yan Huang
Liang Wang

论文信息

arXiv ID: 2601.23232v1
分类: cs.CV, cs.AI
发表时间: 2026年1月30日
PDF: 下载 PDF

[Paper] ShotFinder：想象驱动的开放域视频片段检索 via Web Search

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像

[论文] 无训练的测试时适应与 Brownian Distance Covariance 在视觉语言模型中的应用

[Paper] Med-Scout：通过 Geometry-Aware RL 后训练治愈 MLLMs 在医学感知中的几何盲点