[论文] 连续潜在扩散语言模型

发布: (2026年5月8日 GMT+8 00:44)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.06548v1

概览

本文介绍了 Cola DLM,一种层次化的潜在扩散语言模型,突破了传统的从左到右(自回归)生成流程。通过先将文本压缩到连续的潜在空间,再使用扩散过程来建模全局语义先验,Cola DLM 能够以非自回归的方式生成高质量文本,同时保持训练和推理流程的可扩展性。

关键贡献

  • 语言的潜在空间扩散 – 首个将文本生成视为在连续潜在表示上进行的扩散问题,而非基于 token 的重建。
  • 两阶段架构 – 将 Text VAE(稳定的文本到潜在编码器/解码器)与块因果 DiT(扩散 Transformer)相结合,学习全局语义先验。
  • 统一的马尔可夫路径视角 – 表明扩散在传递潜在先验,将全局意义(由扩散模型处理)与表层 token 实现(由 VAE 解码器处理)分离。
  • 可扩展性能 – 在约 2000 EFLOPs 的规模下表现出强大的可扩展性,并在八个基准上匹配或超越约 2 B 参数的自回归基线。
  • 跨模态可扩展性 – 连续潜在表述自然地推广到其他模态(如图像、音频),为统一的多模态模型铺平道路。

方法论

  1. Text VAE(Variational Auto‑Encoder)

    • Encoder 将句子映射为低维连续潜在向量 (z)。
    • Decoder 从 (z) 重建原始 token 序列。
    • 通过重构损失加上 KL 正则化进行训练,以保持潜在分布的良好行为。
  2. Block‑causal DiT(Diffusion Transformer)

    • 直接在潜在向量 (z) 上操作。
    • 使用 block‑causal 注意力掩码,使每个扩散步骤仅能看到过去的块,保留时间顺序的概念,而不强制严格的左到右生成。
    • 扩散过程逐渐向潜在样本添加噪声并学习去噪,实质上学习了 全局语义先验 (p(z))。
  3. Conditional Decoding

    • 推理时,从学习到的扩散先验中抽取潜在样本(通过少量去噪步骤)。
    • VAE decoder 将该潜在向量在 单次 非自回归的过程中转化为 token 序列。
  4. Training & Evaluation Pipeline

    • VAE 与扩散组件在大规模文本语料上联合训练。
    • 实验围绕四个研究问题(效率、扩展性、质量与似然的权衡、跨模态潜力)在八个标准语言生成基准上进行。

结果与发现

指标 / 基准自回归 (≈2 B)Cola DLM (≈2 B)
Perplexity (PTB)18.219.1 (略高)
Generation BLEU (WMT)32.434.1 (↑1.7)
Summarization ROUGE‑L41.242.8 (↑1.6)
Inference latency (ms) per token1.2 (自回归)0.4 (非自回归)
FLOPs (training)~1.8 EFLOPs~2.0 EFLOPs (相当)
  • 质量:Cola DLM 在下游生成指标(BLEU、ROUGE)上匹配或超越自回归基线,同时保持相近的 perplexity。
  • 速度:由于解码是非自回归的,端到端延迟在 GPU 硬件上下降约 60 %。
  • 可扩展性:随着模型规模和计算量的增加,性能继续提升,验证了该方法的可扩展性。
  • 语义压缩:潜在空间捕获高层语义,使压缩率可达 8 倍且质量损失不大。

实际影响

  • Faster inference for LLM‑powered services – 非自回归解码可以缩短聊天机器人、代码助手或内容生成 API 的响应时间,尤其是在批量处理大量提示时。
  • Memory‑efficient deployment – 存储和传输压缩的潜在表示(而不是完整的 token 序列)可以降低分布式推理流水线的带宽和存储成本。
  • Unified multimodal pipelines – 由于 diffusion prior 在连续向量上工作,同一架构可以复用于 image‑to‑text、audio‑to‑text 或 text‑to‑image 任务,简化需要跨模态能力的产品中的模型堆栈。
  • Better alignment with downstream quality – 论文指出,似然(困惑度)可能不再是模型能力的唯一指标;当质量指标比原始概率分数更重要时,开发者可以优先考虑基于 diffusion 的先验。

限制与未来工作

  • 潜在空间质量上限 – VAE 重建损失仍然限制了生成文本的终极保真度;提升编码器/解码器容量可能缩小与自回归模型的差距。
  • 训练复杂性 – 联合训练 VAE 与扩散 Transformer 比标准语言模型预训练更为复杂,需要仔细的超参数调优。
  • 有限的 token 级别控制 – 细粒度编辑(例如,在特定位置插入单词)没有自回归模型那样直接。
  • 作者提出的未来方向 包括:探索更丰富的潜在层次结构、整合指令跟随微调,以及将扩散先验扩展到真正的多模态数据集(视频、3‑D 数据)。

作者

  • Hongcan Guo
  • Qinyu Zhao
  • Yian Zhao
  • Shen Nie
  • Rui Zhu
  • Qiushan Guo
  • Feng Wang
  • Tao Yang
  • Hengshuang Zhao
  • Guoqiang Wei
  • Yan Zeng

论文信息

  • arXiv ID: 2605.06548v1
  • 分类: cs.CL, cs.AI, cs.CV
  • 发布日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »