[Paper] ChronosOmni: 提升 Omni 大型语言模型的时间感知

发布: 2个月前 (2025年12月11日 GMT+8 01:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09841v1

概览

ChronusOmni 是一种全新的 “omni” 大语言模型，能够在视频和音频流中推理何时发生的事件。通过将时间戳紧密集成到其多模态表征中，模型可以回答需要明确时间的信息（例如 “00:45 时发生了什么？”）以及隐式跨模态时间关系的问题（例如 “当旁白说 ‘暴风雨要来了’ 时屏幕上显示了什么？”）。作者还发布了全新的基准 ChronusAV，以推动视听时间定位研究。

关键贡献

统一的时间戳标记化：引入一种特殊标记，在每个时间步与视觉和音频嵌入交叉出现，使单个 Transformer 能够建模跨模态的时间关系。
强化学习微调：设计奖励函数，显式惩罚顺序错误的预测，奖励细粒度的时间对齐，提升模型的时间感知能力。
ChronusAV 数据集：大规模、模态完整的视频‑音频片段集合，密集标注了显式和隐式定位任务的时间戳。
领先的性能：在 ChronusAV 上相对提升 >30 %，并在多个已有的时间定位基准上创下新最高分。
保持通用视频/音频理解：证明加入时间机制并未削弱模型在标准视频问答或音频分类任务上的表现。

方法论

时间标记插入 – 对于每个固定长度的时间片段（例如 0.5 秒），模型在输入序列中插入一个 时间戳标记。该标记与视觉帧嵌入和对应的音频谱图嵌入并列，形成三元组 [timestamp, visual, audio]。这构成一个有序序列，Transformer 可以将时间视作另一种标记类型进行注意。
多模态编码器 – 预训练的视觉编码器（如 CLIP ViT）和音频编码器（如 wav2vec 2.0）生成模态特定向量。这些向量被投射到统一维度后，与时间戳标记拼接，输入到语言模型骨干（如 LLaMA）。
强化学习（RL）阶段 – 在 ChronusAV 上完成监督预训练后，使用近端策略优化（PPO）进行 RL 微调。采用两种自定义奖励：
- 时间顺序奖励 – 当预测的时间戳遵循真实的时间顺序时给予更高分数。
- 跨模态对齐奖励 – 鼓励模型正确配对视觉事件与相应的音频线索（或反之）。
训练流水线 – 作者首先在标准视频‑语言语料（保持通用能力）和 ChronusAV（注入时间知识）的混合上训练。随后 RL 阶段在不产生灾难性遗忘的前提下细化模型的时间精度。

结果与发现

基准	指标 (↑ 越好)	ChronusOmni	先前 SOTA
ChronusAV（显式定位）	mIoU	0.71	0.53
ChronusAV（隐式跨模态）	Acc@1	0.84	0.61
TVQA（视频问答）	准确率	0.78	0.75
AVSD（视听对话）	BLEU‑4	0.32	0.28

相对提升 30 %+ 在 ChronusAV 主要指标上表明时间戳标记化 + RL 大幅提升了时间定位能力。
几乎无下降（甚至略有提升）在与视频‑语言无关的任务上显示该方法不会牺牲通用理解。
消融实验显示，去除 RL 阶段会导致性能下降约 12 %，而省略音频嵌入会使隐式定位准确率下降约 18 %。

实际意义

增强视频助理：开发能够对电影、体育回放或监控录像进行叙述或问答的 AI 代理时，现在可以更自信地检索 “何时” 发生的事件。
多模态内容索引：搜索引擎可以通过精确的时间标签对视听档案进行索引，实现如 “展示主角首次提到秘密的场景” 之类的查询，无需人工标注。
实时监控：在安全关键领域（如自动驾驶、工业监控），模型能够将传感器音频（警报）与视觉线索对齐，及时触发警报。
创意工具：视频编辑器可以自动生成同步对白与画面的时间线，加速字幕或配音流水线。

由于 ChronusOmni 基于已有的视觉和音频编码器，只需替换多模态编码器并加入时间戳标记层，即可集成到现有流水线，无需大规模架构改动。

局限性与未来工作

固定时间粒度：当前的切片大小是统一的，极快的事件（如快速剪辑）可能被遗漏。自适应切片有望提升细节保真度。
数据集偏差：ChronusAV 虽然多样，但仍偏向脚本化媒体（电影、电视）。真实场景视频（如行车记录仪、直播）可能呈现不同的视听时间模式。
RL 的可扩展性：强化学习增加了计算开销，在更大模型上可能不稳定；探索更高效的微调方式（如 LoRA 适配器）是一个开放方向。

作者建议将时间戳标记概念扩展到其他模态（如文本流、传感器数据），并研究自监督的时间预训练，以降低对密集标注数据的依赖。

作者

陈逸京
吴亦涵
关凯思
任宇晨
王宇玥
宋瑞华
阮丽云

论文信息

arXiv ID: 2512.09841v1
分类: cs.CL, cs.CV, cs.MM
发表时间: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] ChronosOmni: 提升 Omni 大型语言模型的时间感知

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] HFS：整体查询感知帧选择用于高效视频推理

[Paper] 我们准备好在文本到3D生成中使用RL了吗？一次渐进式调查

[Paper] 更强的无归一化Transformer