[Paper] OneThinker:全能图像和视频推理模型
发布: (2025年12月3日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.03043v1
概览
本文提出了 OneThinker,一种单一的多模态推理模型,能够在广泛的视觉任务中同时处理图像和视频——从问答、字幕生成到目标跟踪和分割。通过训练统一模型而非一系列任务特定模型,作者旨在打造更具可扩展性和通用性的 “通用型” 系统,使知识能够在任务和模态之间共享。
主要贡献
- 全能架构:联合学习 10 项基础视觉任务,覆盖图像和视频。
- OneThinker‑600k 数据集:一个涵盖多样任务的精选语料库,配有由商业大语言模型生成的链式思考(CoT)标注。
- OneThinker‑SFT‑340k:监督微调(SFT)起始集,提供高质量的推理轨迹以快速启动模型。
- EMA‑GRPO 算法:一种新颖的多任务强化学习优化器,通过跟踪各任务奖励标准差的指数移动平均来平衡异构奖励。
- 广泛评估:在 31 项基准上进行评测,展示了在所有任务上的强劲表现以及有前景的零样本迁移能力。
- 开源发布:提供代码、模型权重和数据,促进可复现性和社区扩展。
方法论
- 统一数据收集 – 作者汇聚了现有的图像和视频数据集(如 VQA、MS‑COCO、YouCook2、DAVIS),并将其统一为 60 万条训练样本。每条样本包含原始视觉输入、任务标签以及一步步推理的 CoT 注释。
- 监督微调 (SFT) – 使用 34 万条高质量 CoT 轨迹的子集对模型进行热启动。该阶段教会模型用自然语言表达推理过程。
- 多任务强化学习 – 在 SFT 之后,模型通过 RL 进一步优化,以最大化任务特定指标(如 QA 的准确率、分割的 IoU)。由于各任务奖励尺度不同,EMA‑GRPO 优化器会计算每个任务奖励标准差的指数移动平均,并相应归一化更新,防止单一任务主导训练。
- 模型骨干 – OneThinker 基于大型多模态 Transformer(视觉编码器 + 语言解码器),能够处理静态帧和视频片段(将视频视为带时间位置嵌入的帧序列)。所有任务共享同一套参数,实现知识迁移。
结果与发现
- 跨任务性能:OneThinker 在覆盖 QA、字幕、空间定位、时间定位、跟踪和分割的 31 项基准上,匹配或超越了最先进的专用模型。
- 知识迁移:字幕任务的训练提升了视频 QA 的表现,分割数据也提升了目标跟踪的准确率,展示了任务间的协同效应。
- 零样本泛化:在无需额外微调的情况下,模型能够处理未见任务(如基于视频的视觉常识推理),表现出一定的通用能力。
- 效率提升:单一模型可替代多达 12 个专用模型,降低部署体积并在提供多种视觉服务时减少推理延迟。
实际意义
- 统一 AI 服务 – 企业可以通过单一 API 提供一整套视觉能力(如 “描述该视频”、 “在第 42 帧中找到人物”、 “跟踪球体”),简化产品架构和维护。
- 成本效益的扩展 – 训练和托管一个大型模型的成本低于维护数十个专用模型,尤其适用于边缘或受限云环境。
- 快速原型 – 开发者可利用零样本能力快速原型化新视觉任务(如自定义视频问答),无需大量标注数据。
- 跨模态知识复用 – 在一种模态上的改进(如更好的视频分割)会自动惠及相关任务(如视频字幕),加速迭代周期。
- 开放资源 – 发布的数据集和代码为构建领域特定扩展(如医学影像、自动驾驶)提供了即用的基础,只需少量额外数据。
局限性与未来工作
- 奖励异质性处理 – 虽然 EMA‑GRPO 能平衡任务奖励,但仍依赖手动设定的超参数(如衰减率),在新任务上可能需要重新调优。
- 时间分辨率 – 模型将视频视为固定长度的帧序列;超长或高帧率视频可能导致内存压力,需采用层次化时间建模。
- 领域偏差 – 训练语料虽大,但主要来源于公开数据集;在细分领域(如卫星影像)上的表现尚未验证。
- 可解释性 – 虽然 CoT 注释提升了解释性,但 Transformer 的内部推理仍是黑箱;未来工作可引入更显式的推理模块。
- 持续学习 – 将 OneThinker 扩展为在不产生灾难性遗忘的情况下持续吸收新任务仍是开放研究方向。
OneThinker 标志着向真正的多模态、多任务 AI 助手迈出的重要一步,能够用单一可复用模型对图像和视频进行推理。其开源发布邀请社区进一步推动统一视觉推理的边界。
作者
- Kaituo Feng
- Manyuan Zhang
- Hongyu Li
- Kaixuan Fan
- Shuang Chen
- Yilei Jiang
- Dian Zheng
- Peiwen Sun
- Yiyuan Zhang
- Haoze Sun
- Yan Feng
- Peng Pei
- Xunliang Cai
- Xiangyu Yue
论文信息
- arXiv ID: 2512.03043v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 2 日
- PDF: Download PDF