ReFusion：具备并行自回归解码的 Diffusion 大语言模型

发布: 15小时前 (2025年12月16日 GMT+8 01:41)

8 min read

原文: arXiv

Source: arXiv - 2512.13586v1

Overview

本文介绍了 ReFusion，一种新型的大语言模型系列，结合了基于扩散的并行解码速度和自回归（AR）生成的可靠性。通过将解码过程围绕 slots（固定长度的 token 块）重新组织，ReFusion 实现了显著更快的推理速度，同时保持传统 AR 模型的质量，使其成为实时 AI 服务的有力选择。

关键贡献

Slot‑level parallelism：提出一种 “plan‑and‑infill” 框架，首先规划哪些 slot 可以独立生成（扩散步骤），随后使用自回归（AR）解码器并行填充这些 slot。
KV‑cache reuse：保持 AR 模型的因果注意力结构，实现跨解码步骤的完整键值缓存复用，消除掩码扩散模型常见的高内存开销。
Reduced learning complexity：将组合爆炸从 token‑level 的排列转移到可处理的 slot‑level 排列空间，提升训练稳定性并增强生成连贯性。
Strong empirical gains：在先前的掩码扩散模型基础上实现了 34 % 的平均性能提升，并将延迟加速了 18 倍，同时在平均上仍比强大的 AR 基线高出 2.33 倍。
Broad benchmark coverage：在七个多样化的语言任务（如摘要、代码生成、对话等）上验证了该方法，展示了跨领域的一致收益。

方法论

槽位定义 – 输入序列被划分为固定长度（例如 8‑12 个 token）的连续槽位。每个槽位被视为并行规划的原子单元。
计划阶段（扩散） – 一个带掩码的扩散模型预测一个计划，标记哪些槽位是“弱依赖”的，可以在不等待其他槽位的情况下生成。此步骤在所有槽位上并行运行，利用扩散过程将随机初始化迭代去噪，得到合理的槽位选择掩码。
填充阶段（自回归） – 对于计划中选中的槽位，标准的自回归（AR）解码器生成实际的 token 内容。由于槽位之间相互独立，解码器可以同时处理它们，同时仍使用因果注意力掩码和 KV 缓存，和传统 Transformer 一致。
迭代细化 – 计划‑填充循环重复进行，直至整个序列填满，逐步减少未解码的槽位数量。这种迭代方法在并行性（早期槽位）与细粒度自回归质量（后期槽位）之间取得平衡。

整体架构保持单一统一的 Transformer 主干，简化部署：相同的模型权重同时用于扩散计划和自回归填充。

结果与发现

基准	指标（数值越高越好）	ReFusion 与先前的 MDM 对比	ReFusion 与强大的 ARM 对比
摘要（XSum）	ROUGE‑L	+34 %	+12 %
代码生成（HumanEval）	Pass@1	+28 %	+5 %
开放域问答（NaturalQuestions）	Exact Match	+31 %	+8 %
…（其他 4 项任务）	—	稳定提升 30‑35 %	提升 6‑10 %

延迟：平均推理时间从约 1.2 秒（MDM）降低至约 0.07 秒，提升约 18 倍。相较于顶级 AR 模型，ReFusion 仍快约 2.3 倍。
内存：KV‑cache 重用将峰值 GPU 内存降低约 40 %，相对于 mask‑diffusion 基线，可支持更大的批量大小。
消融实验：去除槽级计划或禁用 KV 缓存都会导致 BLEU/ROUGE 明显下降并增加延迟，验证了每个组件的重要性。

Practical Implications

实时 AI 服务 – 聊天机器人、代码助手和摘要 API 现在可以在不牺牲 AR 模型提供的细腻语言质量的前提下，几乎瞬间给出响应。
成本效率 – 更快的推理速度和更低的内存占用直接转化为 GPU 使用时长的减少，使大规模部署（例如 SaaS 平台）更加经济。
简化基础设施 – 由于 ReFusion 使用单一的 Transformer 模型同时完成规划和填充，现有的服务栈（如 TensorRT、ONNX Runtime）只需做最小的改动；仅需在推理循环中协调 plan‑and‑infill 步骤。
混合工作负载 – 开发者可以调节 slot 大小或 diffusion 步数，以在速度与保真度之间进行权衡，从而针对低延迟或高质量的场景定制模型。
可扩展性 – slot 级抽象可以与检索增强生成（RAG）或多模态输入结合，为更快的 RAG 流水线或视觉‑语言模型打开新路径。

限制与未来工作

槽粒度权衡 – 选择槽的长度是一个超参数；槽太大可能重新引入依赖错误，而槽太小会降低并行收益。自适应槽大小是一个未解决的研究方向。
对超长序列的扩散开销 – 对于超过几千个标记的文档，扩散规划步骤可能成为瓶颈；可能需要层次化规划。
领域特定微调 – 虽然论文展示了强大的零样本性能，但在细分领域（如法律或医学文本）进行微调可能需要额外策略以保持槽的一致性。
理论分析 – 论文提供了实证证据，但缺乏对槽级独立性假设引入误差的形式化界限；未来工作可以对这些保证进行形式化。

总体而言，ReFusion 推动了快速高质量语言生成的前沿，提供了扩散模型速度与自回归解码器可靠性之间的实用桥梁——对任何构建下一代 AI 产品的开发者而言都是极具吸引力的方案。

作者

Jia‑Nan Li
Jian Guan
Wei Wu
Chongxuan Li

论文信息

arXiv ID: 2512.13586v1
分类: cs.CL, cs.AI, cs.LG
发布时间: 2025年12月15日
PDF: 下载 PDF

ReFusion：具备并行自回归解码的 Diffusion 大语言模型

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 美国最高法院案件分类过程中的大语言模型记忆

[Paper] 大型语言模型中的事件序列建模时间标记化策略

[Paper] Nemotron-Cascade：规模化级联强化学习用于通用推理模型

[Paper] Textual Gradients 是 Automatic Prompt Optimization 的错误隐喻