[Paper] HFS:整体查询感知帧选择用于高效视频推理
发布: (2025年12月12日 GMT+8 21:10)
6 min read
原文: arXiv
Source: arXiv - 2512.11534v1
概览
本文提出了 HFS(Holistic Frame Selection),一种新框架,用于在下游推理任务(如视频问答、字幕生成)中挑选最具信息量的视频帧。该框架能够 感知查询 并 整体优化帧集合,而不是对每一帧单独打分。通过将小型语言模型与多模态特征耦合并端到端训练选择器,HFS 大幅降低冗余并提升多个视频理解基准的性能。
关键贡献
- 感知查询的隐式向量:链式思考提示驱动小型语言模型(SLM)生成任务特定的查询嵌入,用以引导帧打分。
- 集合层面的可微目标:一种连续损失函数,联合平衡相关性、覆盖度和冗余度,并使用 Gumbel‑Softmax 进行优化,以选择 最佳帧组合。
- 学生‑教师相互学习:SLM 选择器(学生)与多模态大型语言模型推理器(教师)共同训练,通过 KL 散度对齐它们的帧重要性分布。
- 端到端训练:无需离线生成的静态伪标签,使选择器能够动态适应每个下游任务。
- 领先的实验结果:在 Video‑MME、LongVideoBench、MLVU 和 NExT‑QA 等基准上始终超越已有帧选择方法。
方法论
- 隐式查询生成 – 将链式思考提示(例如 “解释为什么这个问题重要”)输入轻量语言模型。模型输出一个密集查询向量,捕捉当前任务(问题、字幕等)的语义。
- 多模态特征融合 – 对每个视频帧,将视觉特征(如 CLIP 嵌入)与查询向量拼接,得到 联合 表示。
- 整体打分 – 与其为每帧分配独立分数,本文定义了集合层面的损失:
- 相关性:帧应有助于回答查询。
- 覆盖度:所选集合应覆盖视频的时间跨度。
- 冗余度:惩罚选择在视觉或语义上相似的帧。
该损失借助 Gumbel‑Softmax 技巧实现可微分,近似离散选择并允许梯度传播。
- 学生‑教师相互学习 – 教师(强大的多模态 LLM)处理完整视频并产生帧的重要性软分布。学生选择器学习模仿该分布(KL 散度),同时受下游任务的交叉熵损失引导。
- 端到端优化 – 查询生成器、帧打分器和下游推理器全部联合训练,使选择器学习挑选直接提升最终任务指标的帧。
结果与发现
| 基准 | 指标 (↑ 越好) | HFS 相较于最佳已有方法 |
|---|---|---|
| Video‑MME | 73.4% 准确率 | +5.2 分 |
| LongVideoBench | 68.1% R@1 | +6.8 分 |
| MLVU | 71.9% mAP | +4.5 分 |
| NExT‑QA | 62.3% 准确率 | +5.9 分 |
- 冗余降低:可视化结果显示所选帧在时间线上均匀分布,避免了传统 top‑K 方法的聚集现象。
- 查询敏感性:更换问题后帧集合会显著变化,验证了感知查询的设计。
- 效率:小型选择器在单 GPU 上每段视频耗时 < 10 ms,支持实时流水线。
实际意义
- 成本效益高的视频分析 – 通过挑选少量高价值帧,开发者可以使用更轻量的模型(如边缘设备视觉模型)而不牺牲准确率,从而降低计算和内存开销。
- 提升视频问答助手 – 基于聊天的长视频问答系统能够更快检索到相关片段,提供更精准的回答。
- 内容审核与索引 – 自动系统可聚焦最具信息量的帧进行违规检测或生成可检索的元数据,加速整个管线。
- 即插即用组件 – HFS 与模型无关,可直接嵌入现有视频推理框架(如基于 CLIP 的字幕生成器、LLM 驱动的视频代理),改动代码量极小。
局限性与未来工作
- 依赖强大的教师:相互学习设置假设能够获取性能强大的多模态 LLM,部分团队可能难以获得或成本较高。
- 对超长视频的可扩展性:虽然 HFS 能处理数分钟的视频,但对时长达数小时的监控录像等仍需层次化选择策略。
- 查询生成的提示设计:链式思考提示目前为手工构造,自动化提示发现或许能进一步提升跨领域鲁棒性。
- 未来方向:作者建议探索基于强化学习的选择机制、将框架扩展到多模态流(音频+视频),以及研究自监督预训练选择器以降低对大型教师的依赖。
作者
- Yiqing Yang
- Kin‑Man Lam
论文信息
- arXiv ID: 2512.11534v1
- 分类: cs.CV, cs.CL, cs.MM
- 发布日期: 2025 年 12 月 12 日
- PDF: Download PDF