[Paper] 使用边界框进行思考:通过强化微调提升时空视频定位
发布: (2025年11月26日 GMT+8 21:21)
7 min read
原文: arXiv
Source: arXiv - 2511.21375v1
概览
本文提出了 STVG‑o1,一种新颖框架,使得即插即用的多模态大语言模型(MLLM)在 时空视频定位(STVG)任务上表现出色——该任务旨在在未裁剪的视频中确定自然语言描述的对象出现的 何时 与 何地。通过加入“边界框思考链”(bounding‑box chain‑of‑thought)推理步骤以及多维度强化学习微调,作者在不重新设计底层模型结构的前提下实现了业界领先的结果。
关键贡献
- Bounding‑box chain‑of‑thought:一种显式的中间推理阶段,模型在给出最终定位答案前先预测一系列边界框。
- 强化微调:自定义奖励函数,联合评估格式正确性、时间对齐、空间重叠、一致性以及思考链的质量。
- 零改动集成:STVG‑o1 可与任何预训练的 MLLM(如 LLaVA、MiniGPT‑4)配合使用,无需架构修改,即可转化为高性能的 STVG 系统。
- 开放词汇泛化:该方法在多个数据集(HCSTVG‑v1/v2、VidSTG)之间迁移,并能处理训练时未见的全新对象类别。
- 业界领先性能:在 HCSTVG‑v1 上提升 +7.3 % m_tIoU,超越此前最佳任务专用模型;在 VidSTG 上匹配专门方法,同时超越所有先前基于 MLLM 的基线。
方法论
- Prompt Engineering – 将视频和自然语言查询与一个 思考链 模板一起输入已有的 MLLM,模板要求模型“逐步思考”,并输出一系列边界框坐标(帧索引 + 框)。
- Bounding‑Box Generation – 模型以文本形式生成 时空轨迹(例如
frame 12: [x1,y1,x2,y2]),随后将该中间输出解析为数值框。 - Reinforcement Fine‑Tuning – 基于解析得到的框计算 多维奖励:
- Format reward – 惩罚格式错误的字符串。
- Consistency reward – 鼓励相邻帧之间的平滑运动。
- Temporal reward – 对齐预测的起止帧与真实帧。
- Spatial reward – 计算与真实框的 IoU(交并比)。
- Think reward – 奖励简洁、合乎逻辑的思考链叙述。
然后使用策略梯度算法(如 REINFORCE)更新模型,以最大化期望奖励,从而让模型学会以边界框形式“思考”。
- Final Prediction – 微调后,模型直接输出得分最高的边界框序列,可供下游系统(如视频编辑器、监控分析)使用。
结果与发现
| 数据集 | 指标 (m_tIoU) | 相较于先前 SOTA 的提升 |
|---|---|---|
| HCSTVG‑v1 | 71.2 (↑ 7.3) | 超越最佳任务专用模型 |
| HCSTVG‑v2 | 68.5 | 与专门方法相当 |
| VidSTG | 44.1 | 与专用 VidSTG 模型持平 |
- 开放词汇:在包含未见对象名称的数据集上评估时,STVG‑o1 保留了 >80 % 的性能,表明思考链推理能够超越训练词汇进行泛化。
- 消融实验:去除 think‑reward 会导致 m_tIoU 下降约 2 %,省略思考链步骤则使性能下降 >5 %,验证了两者的必要性。
- 速度:由于复用了基础 MLLM 推理流程,运行时开销适中(约比原生 MLLM 推理慢 1.2 倍),仍适用于交互式应用。
实际意义
- 开发者友好集成 – 团队可以将 STVG‑o1 插入已有的 LLM 驱动产品(如聊天式视频助理、AI 视频编辑器),无需重写模型代码。
- 增强视频检索 – 精确的时空定位使得“找到 红色汽车 经过桥梁的那一刻”之类的查询成为可能,提升内容管理系统和媒体档案的检索效率。
- 监控与机器人 – 能够实时定位自然语言指令(如“追踪穿蓝色夹克的那个人接下来 10 秒”),为实际场景提供可行方案。
- 开放词汇 UI – 用户可以任意指代对象或动作,系统仍能定位,降低了构建完整标签体系的需求。
- 降低工程成本 – 通过避免定制视觉‑语言架构,企业可以利用 MLLM 生态的快速迭代(更新、扩容、量化)同时实现高精度定位。
局限性与未来工作
- 数据效率 – 强化微调仍需一定量的标注视频定位数据;实现真正的零样本场景仍是未解之题。
- 时间粒度 – 当前思考链为每帧预测一个框,面对超长视频时计算成本较高。未来可探索层次化或关键帧摘要方式。
- 对噪声语言的鲁棒性 – 歧义或口语化查询有时会导致思考链分叉;引入不确定性估计或许能提升可靠性。
- 跨模态一致性 – 虽然 think‑reward 鼓励逻辑推理,但将视觉注意力图与文本思考链更深度融合,可能进一步提升空间精度。
敬请期待——作者承诺将开源代码和预训练检查点,方便开发者社区进行实验和落地。
作者
- Xin Gu
- Haoji Zhang
- Qihang Fan
- Jingxuan Niu
- Zhipeng Zhang
- Libo Zhang
- Guang Chen
- Fan Chen
- Longyin Wen
- Sijie Zhu
论文信息
- arXiv ID: 2511.21375v1
- 分类: cs.CV
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF