[Paper] DiffusionVL：将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

发布: 1个月前 (2025年12月18日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15713v1

Overview

The paper DiffusionVL shows that any strong autoregressive (AR) vision‑language model (VLM) can be turned into a diffusion‑based VLM with just a modest fine‑tuning step. By leveraging the superior decoding properties of diffusion models—such as smoother generation and better handling of uncertainty—the authors achieve a new family of “diffusion VLMs” that match or surpass the performance of state‑of‑the‑art AR models while running up to twice as fast.

关键贡献

通用翻译流水线 – 一个简单的微调配方，可将任何预训练的 AR VLM（例如 LLaVA、MiniGPT‑4）转换为扩散视觉语言模型（dVLM）。
使用极少数据提升性能 – 训练所用数据量 < 5 % 于之前的扩散 VLM，但在主要多模态基准（MMMU‑Pro、MME）上实现 34 %–38 % 的相对提升。
块解码架构 – 引入块级解码方案，实现任意长度输出、KV‑缓存复用，以及相较于普通扩散解码 ≈2× 的推理加速。
与 AR 指令微调竞争 – 表明直接转换的 AR 模型可在无需专门多模态指令数据的情况下，与 LLaVA 风格的视觉指令微调相媲美。
开源发布 – 代码、模型和训练脚本已公开，促进快速采用和进一步研究。

方法论

从自回归 VLM 开始 – 作者使用已经在大规模文本语料上训练好的强大语言骨干（例如 LLaMA），并可选地配备视觉适配器。
替换解码器 – 将自回归逐标记解码器换成扩散解码器，后者预测噪声的标记嵌入，并在固定的扩散步数内逐步去噪。
在多模态数据上微调 – 使用规模适中的多模态数据集（约为之前扩散 VLM 使用数据的 5%），模型学习将视觉特征与扩散语言空间对齐。损失函数将标准的扩散重构损失与最终干净标记的交叉熵相结合。
块解码技巧 – 不在每个扩散步生成单个标记，而是并行预测块标记（例如 8‑16 个标记）。之前块的 KV 缓存被复用，显著减少长句子所需的扩散遍数。
推理流程 – 在测试时，模型对每个块运行少量扩散步，生成流畅、高质量的标题、答案或指令，条件为输入图像。

结果与发现

基准	指标	DiffusionVL（我们的）	先前的 Diffusion VLM	AR‑style VLM
MMMU‑Pro（视觉）	准确率 ↑	+34.4 % 相较于先前的扩散	–	可比
MME（认知）	得分 ↑	+37.5 % 相较于先前的扩散	–	接近最新水平
推理延迟	每个 token 的时间	快 2 倍相较于原始扩散	–	与 AR 相似

范式转变有效 – 从 AR 转向扩散，即使底层语言模型保持不变，也能实现明显的质量提升。
直接转换可行 – 仅仅替换解码器并进行微调，就能得到与经过大量视觉指令微调的模型相当的结果。
速度与效率 – 块解码在保持扩散稳健性的同时，恢复了大部分 AR 风格的延迟优势。

实际意义

快速原型化多模态助理 – 团队可以在已有的大语言模型（例如 LLaMA‑2）的基础上，仅通过数小时的微调，就得到一个基于扩散的视觉语言模型（VLM），其在开放式生成时更为稳定（例如，幻觉更少，令牌分布更平滑）。
成本效益高的训练 – 由于只需要一小部分多模态数据，初创公司和研究实验室即可构建具有竞争力的 VLM，而无需当前扩散 VLM 研究中占主导地位的大规模数据管道。
可扩展的长文本生成 – 块解码使扩散在报告生成、代码解释或多步推理等输出长度可能达到数百个令牌的任务中变得实用。
更好地与生成式视觉模型集成 – 扩散 VLM 天然与扩散图像生成器（例如 Stable Diffusion）对齐，为创意应用中的“图像‑文本‑图像”紧耦合循环打开了大门。
开源基础 – 发布的代码库提供了即插即用的转换脚本，降低了开发者在自己的多模态流水线中实验扩散解码的门槛。

限制与未来工作

扩散步骤预算 – 尽管块解码加快了速度，扩散仍然需要对每个块进行多次去噪步骤，这在低功耗设备上可能成为瓶颈。
依赖强大的 AR 主干 – 质量上限与原始 AR 模型绑定；将一个弱的 AR VLM 转换为 dVLM 并不会神奇地提升其强度。
模态范围有限 – 当前工作聚焦于视觉‑语言；将翻译流水线扩展到音频、视频或 3‑D 数据仍是一个未解决的挑战。
下游任务评估 – 虽然基准分数令人印象深刻，但仍需真实场景的用户研究（例如聊天助手、代码助手）来确认感知质量的提升。

未来的研究方向包括自适应扩散调度以进一步缩短推理时间、多模态扩散流水线联合去噪视觉和文本流，以及探索课程式微调以进一步降低数据需求。

作者

Lunbin Zeng
Jingfeng Yao
Bencheng Liao
Hongyuan Tao
Wenyu Liu
Xinggang Wang

论文信息

arXiv ID: 2512.15713v1
分类: cs.CV
出版日期: 2025年12月17日
PDF: Download PDF

[Paper] DiffusionVL：将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 灵巧的世界模型

[Paper] 开放基础模型中视觉的对抗鲁棒性