[Paper] OneThinker：全能图像和视频推理模型

发布: 2个月前 (2025年12月3日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03043v1

概览

本文提出了 OneThinker，一种单一的多模态推理模型，能够在广泛的视觉任务中同时处理图像和视频——从问答、字幕生成到目标跟踪和分割。通过训练统一模型而非一系列任务特定模型，作者旨在打造更具可扩展性和通用性的 “通用型” 系统，使知识能够在任务和模态之间共享。

统一数据收集 – 作者汇聚了现有的图像和视频数据集（如 VQA、MS‑COCO、YouCook2、DAVIS），并将其统一为 60 万条训练样本。每条样本包含原始视觉输入、任务标签以及一步步推理的 CoT 注释。
监督微调 (SFT) – 使用 34 万条高质量 CoT 轨迹的子集对模型进行热启动。该阶段教会模型用自然语言表达推理过程。
多任务强化学习 – 在 SFT 之后，模型通过 RL 进一步优化，以最大化任务特定指标（如 QA 的准确率、分割的 IoU）。由于各任务奖励尺度不同，EMA‑GRPO 优化器会计算每个任务奖励标准差的指数移动平均，并相应归一化更新，防止单一任务主导训练。
模型骨干 – OneThinker 基于大型多模态 Transformer（视觉编码器 + 语言解码器），能够处理静态帧和视频片段（将视频视为带时间位置嵌入的帧序列）。所有任务共享同一套参数，实现知识迁移。

统一 AI 服务 – 企业可以通过单一 API 提供一整套视觉能力（如 “描述该视频”、 “在第 42 帧中找到人物”、 “跟踪球体”），简化产品架构和维护。
成本效益的扩展 – 训练和托管一个大型模型的成本低于维护数十个专用模型，尤其适用于边缘或受限云环境。
快速原型 – 开发者可利用零样本能力快速原型化新视觉任务（如自定义视频问答），无需大量标注数据。
跨模态知识复用 – 在一种模态上的改进（如更好的视频分割）会自动惠及相关任务（如视频字幕），加速迭代周期。
开放资源 – 发布的数据集和代码为构建领域特定扩展（如医学影像、自动驾驶）提供了即用的基础，只需少量额外数据。

OneThinker 标志着向真正的多模态、多任务 AI 助手迈出的重要一步，能够用单一可复用模型对图像和视频进行推理。其开源发布邀请社区进一步推动统一视觉推理的边界。