[Paper] Monet: 在潜在视觉空间中进行超越图像和语言的推理
发布: (2025年11月26日 GMT+8 21:46)
8 min read
原文: arXiv
Source: arXiv - 2511.21395v1
概览
本文提出了 Monet,一种全新的训练框架,使多模态大语言模型(MLLM)能够在潜在视觉空间中进行“思考”,而不是在原始图像和文本之间来回切换。通过将连续的视觉嵌入作为中间推理步骤生成,Monet 将视觉推理更贴近人类形成抽象视觉思维的方式,从而在真实世界和分布外的视觉任务上实现更强的性能。
关键贡献
- 潜在视觉推理:引入一种范式,让 MLLM 直接操作内部图像嵌入,消除在链式思考(CoT)生成过程中对外部视觉工具的需求。
- 三阶段蒸馏 SFT 流程:一种成本有效的微调方案,能够对齐语言与视觉潜在空间,并为生成的嵌入提供强监督。
- VLPO(Visual‑latent Policy Optimization):基于强化学习的策略梯度方法,显式将潜在视觉嵌入纳入奖励信号,提升视觉推理能力,超越仅文本的 RL 技巧。
- Monet‑SFT‑125K 数据集:精心策划的 125 K 示例 CoT 集合,覆盖真实照片、图表、OCR 与几何题,每个示例交替出现文本和潜在视觉步骤。
- Monet‑7B 模型:一款 70 亿参数的 MLLM,在感知、推理和抽象视觉基准上始终优于已有基线,展示了对未见视觉概念的强泛化能力。
方法论
-
潜在视觉空间:Monet 的语言模型不在每一步推理时都向视觉编码器输入原始像素,而是预测一个连续的嵌入向量,代表它下一步想要使用的“视觉思考”。该嵌入仅在需要给出最终答案时,由冻结的视觉解码器进行解码。
-
三阶段蒸馏 SFT
- 阶段 1 – 视觉‑语言对齐:教师视觉‑语言模型(如 CLIP)为每张图像提供目标嵌入,MLLM 学习模仿这些嵌入。
- 阶段 2 – 链式思考监督:使用 Monet‑SFT‑125K 数据集,对模型进行微调,使其生成交替出现的文本和潜在视觉 token,匹配人工编写的 CoT。
- 阶段 3 – 强化微调:VLPO 采用策略梯度更新,奖励函数结合标准语言正确性(如答案准确率)和 潜在视觉一致性 项,后者衡量预测嵌入与教师潜在空间的对齐程度。
-
VLPO 与 GRPO 的对比:作者指出,常用的广义强化策略优化(GRPO)仅提升文本推理能力。VLPO 在梯度中加入潜在视觉损失,直接鼓励模型生成有用的视觉嵌入。
结果与发现
| 基准 | 指标 (↑ 越好) | Monet‑7B 与强基线对比 |
|---|---|---|
| VQA‑Real(真实世界感知) | 准确率 73.4% | +5.2 分 |
| ChartQA(图表推理) | 完全匹配 68.1% | +6.8 分 |
| OCR‑CoT(文本提取 + 推理) | F1 81.7% | +4.5 分 |
| Abstract Geometry(分布外) | 解题率 62.3% | +9.1 分 |
关键要点
- 潜在视觉推理在各类任务上均带来 一致性提升,尤其在需要中间视觉抽象的任务(图表、几何)上效果显著。
- 消融实验表明,去除 VLPO 会导致视觉重任务性能下降约 3–4 %;去掉蒸馏阶段则会严重削弱对齐质量。
- 由于重型视觉解码器仅在推理终点运行,模型的 速度与纯文本 MLLM 相当。
实际意义
- 开发者友好 API:Monet 可封装为单一端点,接受提示词和可选图像,返回文本答案,无需为每一步推理单独调用视觉模块。这简化了在聊天机器人、数据分析助理和低代码平台中的集成。
- 成本效益可扩展:通过冻结视觉编码器并仅生成轻量级嵌入,Monet 相比完整的视觉‑语言流水线显著降低 GPU 内存和计算需求,适合本地部署或在配备普通 GPU 的边缘设备上运行。
- 提升 UI/UX:文档处理、仪表盘分析或设计评审等应用现在可以让模型“可视化”中间概念(例如“绘制高亮区域的边框”),而无需显式渲染图像,从而实现更丰富、更自然的交互。
- 抽象推理的基础:潜在视觉方法为需要心象的任务打开了大门——如从文本描述规划机器人动作,或对科学图示进行推理——而无需手工构造视觉提示。
局限性与未来工作
- 依赖冻结的视觉解码器:潜在嵌入的质量受限于预训练视觉模型;若要进一步提升可能需要联合训练或更优秀的解码器。
- 数据集偏差:Monet‑SFT‑125K 虽然多样,但仍以英语资源为主,可能未覆盖全球不同文化的视觉习惯。
- 向更大模型的可扩展性:实验仅在 7 B 参数的骨干上完成,尚不清楚该方法在 30 B+ 模型或多模态指令微调中的表现。
- 潜在思维的可解释性:嵌入本身不可直接被人类阅读,导致“视觉错误”难以调试;未来工作可探索可视化中间嵌入或将其映射为符号化草图。
Monet 证明,将视觉推理直接嵌入语言模型的潜在空间不仅可行,而且在实际应用中具备显著优势,为构建更紧凑、认知上更一致的多模态 AI 系统奠定了基础。
作者
- 王启勋
- 施阳
- 王一飞
- 张元兴
- 万鹏飞
- 盖坤
- 应向华
- 王亦森
论文信息
- arXiv ID: 2511.21395v1
- 分类: cs.CV, cs.AI
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF