[论文] 连续潜在扩散语言模型

发布: 3天前 (2026年5月8日 GMT+8 00:44)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.06548v1

概览

本文介绍了 Cola DLM，一种层次化的潜在扩散语言模型，突破了传统的从左到右（自回归）生成流程。通过先将文本压缩到连续的潜在空间，再使用扩散过程来建模全局语义先验，Cola DLM 能够以非自回归的方式生成高质量文本，同时保持训练和推理流程的可扩展性。

Text VAE（Variational Auto‑Encoder）
- Encoder 将句子映射为低维连续潜在向量 (z)。
- Decoder 从 (z) 重建原始 token 序列。
- 通过重构损失加上 KL 正则化进行训练，以保持潜在分布的良好行为。
Block‑causal DiT（Diffusion Transformer）
- 直接在潜在向量 (z) 上操作。
- 使用 block‑causal 注意力掩码，使每个扩散步骤仅能看到过去的块，保留时间顺序的概念，而不强制严格的左到右生成。
- 扩散过程逐渐向潜在样本添加噪声并学习去噪，实质上学习了 全局语义先验 (p(z))。
Conditional Decoding
- 推理时，从学习到的扩散先验中抽取潜在样本（通过少量去噪步骤）。
- VAE decoder 将该潜在向量在单次非自回归的过程中转化为 token 序列。
Training & Evaluation Pipeline
- VAE 与扩散组件在大规模文本语料上联合训练。
- 实验围绕四个研究问题（效率、扩展性、质量与似然的权衡、跨模态潜力）在八个标准语言生成基准上进行。

指标 / 基准	自回归 (≈2 B)	Cola DLM (≈2 B)
Perplexity (PTB)	18.2	19.1 (略高)
Generation BLEU (WMT)	32.4	34.1 (↑1.7)
Summarization ROUGE‑L	41.2	42.8 (↑1.6)
Inference latency (ms) per token	1.2 (自回归)	0.4 (非自回归)
FLOPs (training)	~1.8 EFLOPs	~2.0 EFLOPs (相当)

Faster inference for LLM‑powered services – 非自回归解码可以缩短聊天机器人、代码助手或内容生成 API 的响应时间，尤其是在批量处理大量提示时。
Memory‑efficient deployment – 存储和传输压缩的潜在表示（而不是完整的 token 序列）可以降低分布式推理流水线的带宽和存储成本。
Unified multimodal pipelines – 由于 diffusion prior 在连续向量上工作，同一架构可以复用于 image‑to‑text、audio‑to‑text 或 text‑to‑image 任务，简化需要跨模态能力的产品中的模型堆栈。
Better alignment with downstream quality – 论文指出，似然（困惑度）可能不再是模型能力的唯一指标；当质量指标比原始概率分数更重要时，开发者可以优先考虑基于 diffusion 的先验。