[Paper] TimeLens:重新思考视频时序定位与多模态 LLMs
发布: (2025年12月17日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.14698v1
Overview
本文介绍了 TimeLens,一个系统化的基线方法,展示了如何将现代多模态大语言模型(MLLM)转化为强大的视频时间定位(VTG)引擎。通过清理基准数据并改进训练配方,作者证明了即使是现成的 MLLM,也可以被引导在定位视频中描述事件发生 何时 的任务上,超越许多专有系统。
关键贡献
- TimeLens‑Bench – 重新标注的高质量版本,涵盖三个流行的 VTG 基准,揭示了原始数据集中的严重标注错误。
- TimeLens‑100K – 一个自动化流水线,生成包含 100 K 条剪辑的高保真 VTG 训练集,显著降低现有语料库中的噪声。
- Interleaved Textual Encoding – 一种轻量级编码方案,将显式的时间槽标记注入语言模型输入,提升时间推理能力,无需大幅度架构改动。
- RLVR(可验证奖励的强化学习) – 一种“免思考”强化学习框架,使用自动可验证的奖励信号而非昂贵的人类反馈,训练模型输出精确的时间戳。
- 最先进的开源性能 – 生成的 TimeLens 系列在清洗后的基准上超越所有公开可用的 VTG 模型,甚至超过如 GPT‑5 和 Gemini‑2.5‑Flash 等闭源巨头。
- 开放发布 – 所有代码、数据和预训练检查点均公开提供,以加速可重复性研究和下游创新。
方法论
- Diagnosing Benchmark Quality – 作者审计了三个广泛使用的 VTG 数据集(例如 ActivityNet‑Caption、Charades‑STA),发现时间戳不匹配、查询含糊以及事件缺失。他们在严格指南下重新标注这些样本,创建了 TimeLens‑Bench。
- Building a Clean Training Corpus – 通过组合现成的视频字幕生成器、时间段检测器和基于规则的验证器,他们自动生成了 100 K 视频‑查询‑时间戳 三元组(TimeLens‑100K)。人工抽查确认标签准确率 > 95 %。
- Model Architecture Tweaks – 作者没有重新设计视觉编码器,而是保持冻结的视频主干(例如 CLIP‑ViT),并专注于语言侧。时间标记(
<t0>、<t1>,…)与查询文本交叉插入,使 LLM 能将时间标记视为一等符号。 - Training via RLVR – 在短暂的监督预热后,模型使用强化学习进行微调。奖励自动计算:若预测区间与真实区间的重叠超过阈值(例如 IoU > 0.5),模型获得奖励 1,否则为 0。这消除了昂贵的人在回路奖励模型的需求。
- Recipe Engineering – 作者尝试课程学习(从易到难的查询)、混合精度训练以及梯度累积调度,以在保持计算成本适中的同时仍实现顶级性能。
结果与发现
| Model (open‑source) | mIoU (TimeLens‑Bench) | Relative Gain vs. Baseline |
|---|---|---|
| Baseline MLLM (no tweaks) | 31.2 % | — |
| + Interleaved Encoding | 38.7 % | + 24 % |
| + RLVR training | 44.5 % | + 43 % |
| TimeLens‑L (largest) | 52.1 % | + 67 % |
| Proprietary GPT‑5* | 48.3 % | — |
| Proprietary Gemini‑2.5‑Flash* | 49.0 % | — |
Numbers for closed‑source models are taken from the authors’ reproduced evaluation on the cleaned benchmarks.
关键要点
- 仅清理评估数据就会重新排列排行榜——之前被认为是最佳的模型会大幅下降。
- 交错时间标记技巧带来约 7 % 的绝对 mIoU 提升,几乎不增加计算量。
- RLVR 提供了最大的提升,证实了简单、可验证的奖励信号足以实现精确的时间定位。
实际意义
- 开发者工具 – TimeLens 可以包装成即插即用的 API,接受自然语言查询并返回起止时间戳,从而在视频编辑器中实现“按场景搜索”或在体育直播中自动生成精彩片段等功能。
- 内容审核 – 精确的 VTG 能够标记特定时刻(例如暴力或版权受限的片段),无需扫描整段视频,节省带宽和计算资源。
- 在线教育与无障碍 – 自动将讲座文字稿对齐到视频时间轴,轻松生成章节标记或字幕同步导航。
- 低成本部署 – 由于该方法依赖冻结的视觉编码器和适度的 RL 微调,企业可以在单 GPU 预算下对 TimeLens 模型进行领域数据(如产品演示)的微调。
局限性与未来工作
- 领域偏移 – 当前的训练集侧重于通用的开放域视频;在高度专业化的领域(如医疗手术、工业检测)上,性能可能会在缺乏额外微调的情况下下降。
- 时间粒度 – 模型预测的是粗粒度的时间间隔(秒级)。对于某些 AR/VR 应用所需的亚秒级精度仍是一个未解决的挑战。
- 奖励简化 – RLVR 使用二元 IoU 阈值;更丰富的奖励塑形(例如惩罚提前或延迟漂移)可能进一步提升准确性。
- 重新标注的可扩展性 – 虽然自动化流水线具有可扩展性,但完全消除对边缘案例的人为监督仍是一个开放的研究问题。
作者计划将 TimeLens 扩展到多事件定位(每个视频处理多个查询),并在未来的版本中探索音视频联合时间推理。
作者
- Jun Zhang
- Teng Wang
- Yuying Ge
- Yixiao Ge
- Xinhao Li
- Ying Shan
- Limin Wang
论文信息
- arXiv ID: 2512.14698v1
- 分类: cs.CV, cs.AI, cs.CL, cs.MM
- 发表时间: 2025年12月16日
- PDF: 下载 PDF