[Paper] Molmo2：开放权重和数据用于具备视频理解与定位的视觉-语言模型

发布: 3个月前 (2026年1月16日 GMT+8 01:27)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.10611v1

Overview

Molmo2 是一套全新的开放权重视觉语言模型（VLM）家族，推动了视频理解的最新技术水平，并且关键在于实现像素级定位（指向、跟踪），适用于单张图像、多图像集合以及视频流。通过发布模型权重和完整的训练数据流水线，作者为社区提供了可复现的基础，以构建下一代以视频为中心的 AI 应用。

开源数据收集：7 个新视频数据集 + 2 个多图像数据集（详细字幕、自由形式问答、对象跟踪查询、视频指向任务），在未使用任何闭源 VLM 的情况下收集。
Molmo2 模型系列：可扩展架构最高达 8 B 参数，采用自定义打包和消息树编码方案，高效处理长视频序列。
双向视觉标记注意力 与 标记加权策略，提升跨模态推理和定位准确性。
最先进的开源权重性能：在短视频字幕、计数任务上达到业界最佳，在长视频任务上具竞争力；在视频定位和跟踪基准上超越专有模型。
全面评估套件，覆盖短视频和长视频的字幕、计数、问答、指向和跟踪等任务。

数据管道
- 从公共来源策划原始视频片段，并使用高粒度字幕进行标注（描述动作、对象和场景细节）。
- 构建了自由形式视频问答集合，标注者对片段提出自然问题。
- 设计了视频指向数据集：标注者在帧中点击对象并提供文本引用，使模型学习“在哪里”查看。
- 添加了复杂对象跟踪数据集，包含多步查询（例如，“在红球消失并重新出现后进行跟踪”）。
模型架构
- 基于 Transformer 的视觉语言骨干网络，将视频帧视为视觉 token 序列。
- 消息树编码将可变长度的帧序列打包成紧凑表示，降低内存开销。
- 双向注意力使语言 token 能关注视觉 token，反之亦然，促进更紧密的对齐。
- Token 权重策略为在定位任务中可能被引用的 token（如查询中提到的对象）分配更高重要性。
训练方案
- 在大规模字幕数据集上进行预训练，以学习通用的视频‑文本对齐。
- 在问答、指向和跟踪数据集上进行微调，使用多任务损失平衡字幕、分类和定位目标。
- 在普通 GPU 上进行高效混合精度训练，使 8 B 模型对大多数研究实验室可达。

任务	Molmo2‑8B	Qwen3‑VL（开源）	Gemini 3 Pro（专有）
视频计数（短）	35.5 % 准确率	29.6 %	–
视频指向（F1）	38.4	–	20.0
视频追踪（J&F）	56.2	–	41.1
短视频字幕（BLEU‑4）	在开源模型中达到最新水平	–	–
长视频理解	竞争力（与顶级闭源模型相差 2–3 %）	–	–

面向开发者的 API：随着权重和数据公开，工程师可以对 Molmo2 进行微调，以用于特定领域的视频助手、监控分析或交互式媒体应用，而无需昂贵的授权费用。
增强的视频 UI/UX：点击式界面（例如视频编辑器、在线学习平台）现在可以利用真正理解对象“位置”的模型，实现自动对象标记、智能剪辑以及基于视频内容的交互式问答等功能。
机器人与 AR：实时定位使机器人或 AR 眼镜能够遵循指向实时视频流中对象的自然语言指令（例如“把左边的蓝色杯子递给我”）。
内容审核：精确定位有助于标记违反政策的特定帧或区域，与粗糙的分类相比可降低误报率。
研究加速：发布的数据集成为社区的基准套件，促进可重复性并加快视频语言研究的迭代速度。

Scale ceiling: 虽然 8 B 模型表现强大，但在超长视频推理以及涉及音频的多模态推理方面仍落后于最大的专有 VLM。
Compute requirements: 训练完整流水线需要多 GPU 集群；小型实验室可能只能依赖提供的检查点和有限的微调。
Domain bias: 尽管数据集多样，但来源于公开视频，可能对细分领域（医学影像、工业检测）代表性不足。
Future directions: 作者建议的未来方向包括：整合音频流、使用稀疏注意力将规模扩展至 >30 B 参数，以及将定位任务扩展到用于混合现实场景的 3‑D 点云。