ReFusion:具备并行自回归解码的 Diffusion 大语言模型

发布: (2025年12月16日 GMT+8 01:41)
8 min read
原文: arXiv

Source: arXiv - 2512.13586v1

Overview

本文介绍了 ReFusion,一种新型的大语言模型系列,结合了基于扩散的并行解码速度和自回归(AR)生成的可靠性。通过将解码过程围绕 slots(固定长度的 token 块)重新组织,ReFusion 实现了显著更快的推理速度,同时保持传统 AR 模型的质量,使其成为实时 AI 服务的有力选择。

关键贡献

  • Slot‑level parallelism:提出一种 “plan‑and‑infill” 框架,首先规划哪些 slot 可以独立生成(扩散步骤),随后使用自回归(AR)解码器并行填充这些 slot。
  • KV‑cache reuse:保持 AR 模型的因果注意力结构,实现跨解码步骤的完整键值缓存复用,消除掩码扩散模型常见的高内存开销。
  • Reduced learning complexity:将组合爆炸从 token‑level 的排列转移到可处理的 slot‑level 排列空间,提升训练稳定性并增强生成连贯性。
  • Strong empirical gains:在先前的掩码扩散模型基础上实现了 34 % 的平均性能提升,并将延迟加速了 18 倍,同时在平均上仍比强大的 AR 基线高出 2.33 倍。
  • Broad benchmark coverage:在七个多样化的语言任务(如摘要、代码生成、对话等)上验证了该方法,展示了跨领域的一致收益。

方法论

  1. 槽位定义 – 输入序列被划分为固定长度(例如 8‑12 个 token)的连续槽位。每个槽位被视为并行规划的原子单元。
  2. 计划阶段(扩散) – 一个带掩码的扩散模型预测一个 计划,标记哪些槽位是“弱依赖”的,可以在不等待其他槽位的情况下生成。此步骤在所有槽位上并行运行,利用扩散过程将随机初始化迭代去噪,得到合理的槽位选择掩码。
  3. 填充阶段(自回归) – 对于计划中选中的槽位,标准的自回归(AR)解码器生成实际的 token 内容。由于槽位之间相互独立,解码器可以同时处理它们,同时仍使用因果注意力掩码和 KV 缓存,和传统 Transformer 一致。
  4. 迭代细化 – 计划‑填充循环重复进行,直至整个序列填满,逐步减少未解码的槽位数量。这种迭代方法在并行性(早期槽位)与细粒度自回归质量(后期槽位)之间取得平衡。

整体架构保持单一统一的 Transformer 主干,简化部署:相同的模型权重同时用于扩散计划和自回归填充。

结果与发现

基准指标(数值越高越好)ReFusion 与 先前的 MDM 对比ReFusion 与 强大的 ARM 对比
摘要(XSum)ROUGE‑L+34 %+12 %
代码生成(HumanEval)Pass@1+28 %+5 %
开放域问答(NaturalQuestions)Exact Match+31 %+8 %
…(其他 4 项任务)稳定提升 30‑35 %提升 6‑10 %
  • 延迟:平均推理时间从约 1.2 秒(MDM)降低至约 0.07 秒,提升约 18 倍。相较于顶级 AR 模型,ReFusion 仍快约 2.3 倍。
  • 内存:KV‑cache 重用将峰值 GPU 内存降低约 40 %,相对于 mask‑diffusion 基线,可支持更大的批量大小。
  • 消融实验:去除槽级计划或禁用 KV 缓存都会导致 BLEU/ROUGE 明显下降并增加延迟,验证了每个组件的重要性。

Practical Implications

  • 实时 AI 服务 – 聊天机器人、代码助手和摘要 API 现在可以在不牺牲 AR 模型提供的细腻语言质量的前提下,几乎瞬间给出响应。
  • 成本效率 – 更快的推理速度和更低的内存占用直接转化为 GPU 使用时长的减少,使大规模部署(例如 SaaS 平台)更加经济。
  • 简化基础设施 – 由于 ReFusion 使用单一的 Transformer 模型同时完成规划和填充,现有的服务栈(如 TensorRT、ONNX Runtime)只需做最小的改动;仅需在推理循环中协调 plan‑and‑infill 步骤。
  • 混合工作负载 – 开发者可以调节 slot 大小或 diffusion 步数,以在速度与保真度之间进行权衡,从而针对低延迟或高质量的场景定制模型。
  • 可扩展性 – slot 级抽象可以与检索增强生成(RAG)或多模态输入结合,为更快的 RAG 流水线或视觉‑语言模型打开新路径。

限制与未来工作

  • 槽粒度权衡 – 选择槽的长度是一个超参数;槽太大可能重新引入依赖错误,而槽太小会降低并行收益。自适应槽大小是一个未解决的研究方向。
  • 对超长序列的扩散开销 – 对于超过几千个标记的文档,扩散规划步骤可能成为瓶颈;可能需要层次化规划。
  • 领域特定微调 – 虽然论文展示了强大的零样本性能,但在细分领域(如法律或医学文本)进行微调可能需要额外策略以保持槽的一致性。
  • 理论分析 – 论文提供了实证证据,但缺乏对槽级独立性假设引入误差的形式化界限;未来工作可以对这些保证进行形式化。

总体而言,ReFusion 推动了快速高质量语言生成的前沿,提供了扩散模型速度与自回归解码器可靠性之间的实用桥梁——对任何构建下一代 AI 产品的开发者而言都是极具吸引力的方案。

作者

  • Jia‑Nan Li
  • Jian Guan
  • Wei Wu
  • Chongxuan Li

论文信息

  • arXiv ID: 2512.13586v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发布时间: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »