[论文] 连续潜在扩散语言模型
发布: (2026年5月8日 GMT+8 00:44)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.06548v1
概览
本文介绍了 Cola DLM,一种层次化的潜在扩散语言模型,突破了传统的从左到右(自回归)生成流程。通过先将文本压缩到连续的潜在空间,再使用扩散过程来建模全局语义先验,Cola DLM 能够以非自回归的方式生成高质量文本,同时保持训练和推理流程的可扩展性。
关键贡献
- 语言的潜在空间扩散 – 首个将文本生成视为在连续潜在表示上进行的扩散问题,而非基于 token 的重建。
- 两阶段架构 – 将 Text VAE(稳定的文本到潜在编码器/解码器)与块因果 DiT(扩散 Transformer)相结合,学习全局语义先验。
- 统一的马尔可夫路径视角 – 表明扩散在传递潜在先验,将全局意义(由扩散模型处理)与表层 token 实现(由 VAE 解码器处理)分离。
- 可扩展性能 – 在约 2000 EFLOPs 的规模下表现出强大的可扩展性,并在八个基准上匹配或超越约 2 B 参数的自回归基线。
- 跨模态可扩展性 – 连续潜在表述自然地推广到其他模态(如图像、音频),为统一的多模态模型铺平道路。
方法论
-
Text VAE(Variational Auto‑Encoder)
- Encoder 将句子映射为低维连续潜在向量 (z)。
- Decoder 从 (z) 重建原始 token 序列。
- 通过重构损失加上 KL 正则化进行训练,以保持潜在分布的良好行为。
-
Block‑causal DiT(Diffusion Transformer)
- 直接在潜在向量 (z) 上操作。
- 使用 block‑causal 注意力掩码,使每个扩散步骤仅能看到过去的块,保留时间顺序的概念,而不强制严格的左到右生成。
- 扩散过程逐渐向潜在样本添加噪声并学习去噪,实质上学习了 全局语义先验 (p(z))。
-
Conditional Decoding
- 推理时,从学习到的扩散先验中抽取潜在样本(通过少量去噪步骤)。
- VAE decoder 将该潜在向量在 单次 非自回归的过程中转化为 token 序列。
-
Training & Evaluation Pipeline
- VAE 与扩散组件在大规模文本语料上联合训练。
- 实验围绕四个研究问题(效率、扩展性、质量与似然的权衡、跨模态潜力)在八个标准语言生成基准上进行。
结果与发现
| 指标 / 基准 | 自回归 (≈2 B) | Cola DLM (≈2 B) |
|---|---|---|
| Perplexity (PTB) | 18.2 | 19.1 (略高) |
| Generation BLEU (WMT) | 32.4 | 34.1 (↑1.7) |
| Summarization ROUGE‑L | 41.2 | 42.8 (↑1.6) |
| Inference latency (ms) per token | 1.2 (自回归) | 0.4 (非自回归) |
| FLOPs (training) | ~1.8 EFLOPs | ~2.0 EFLOPs (相当) |
- 质量:Cola DLM 在下游生成指标(BLEU、ROUGE)上匹配或超越自回归基线,同时保持相近的 perplexity。
- 速度:由于解码是非自回归的,端到端延迟在 GPU 硬件上下降约 60 %。
- 可扩展性:随着模型规模和计算量的增加,性能继续提升,验证了该方法的可扩展性。
- 语义压缩:潜在空间捕获高层语义,使压缩率可达 8 倍且质量损失不大。
实际影响
- Faster inference for LLM‑powered services – 非自回归解码可以缩短聊天机器人、代码助手或内容生成 API 的响应时间,尤其是在批量处理大量提示时。
- Memory‑efficient deployment – 存储和传输压缩的潜在表示(而不是完整的 token 序列)可以降低分布式推理流水线的带宽和存储成本。
- Unified multimodal pipelines – 由于 diffusion prior 在连续向量上工作,同一架构可以复用于 image‑to‑text、audio‑to‑text 或 text‑to‑image 任务,简化需要跨模态能力的产品中的模型堆栈。
- Better alignment with downstream quality – 论文指出,似然(困惑度)可能不再是模型能力的唯一指标;当质量指标比原始概率分数更重要时,开发者可以优先考虑基于 diffusion 的先验。
限制与未来工作
- 潜在空间质量上限 – VAE 重建损失仍然限制了生成文本的终极保真度;提升编码器/解码器容量可能缩小与自回归模型的差距。
- 训练复杂性 – 联合训练 VAE 与扩散 Transformer 比标准语言模型预训练更为复杂,需要仔细的超参数调优。
- 有限的 token 级别控制 – 细粒度编辑(例如,在特定位置插入单词)没有自回归模型那样直接。
- 作者提出的未来方向 包括:探索更丰富的潜在层次结构、整合指令跟随微调,以及将扩散先验扩展到真正的多模态数据集(视频、3‑D 数据)。
作者
- Hongcan Guo
- Qinyu Zhao
- Yian Zhao
- Shen Nie
- Rui Zhu
- Qiushan Guo
- Feng Wang
- Tao Yang
- Hengshuang Zhao
- Guoqiang Wei
- Yan Zeng
论文信息
- arXiv ID: 2605.06548v1
- 分类: cs.CL, cs.AI, cs.CV
- 发布日期: 2026年5月7日
- PDF: 下载 PDF