[论文] 并行标记预测语言模型
发布: (2025年12月25日 GMT+8 02:46)
6 min read
原文: arXiv
Source: arXiv - 2512.21323v1
概述
本文介绍了 Parallel Token Prediction (PTP),一种新框架,使大型语言模型能够一次生成多个相互依赖的标记,而不是逐个生成。通过将采样逻辑折叠进模型本身,PTP 减少了通常主导自回归解码的延迟,同时保留了原始模型的全部表达能力。
关键贡献
- 通用并行生成 – PTP 能表示任意自回归分布,消除了限制现有多标记方法的独立性假设。
- 单次 Transformer 前向即联合预测多个标记 – 多个标记一起采样,显著降低长输出所需的前向传播次数。
- 两条训练路径 – (1) 蒸馏自预训练的自回归教师模型,(2) 逆自回归训练直接从数据中学习,无需教师。
- 理论保证 – 作者证明,只要容量足够,PTP 能精确恢复任意自回归序列分布。
- 最先进的投机解码 – 在 Vicuna‑7B 模型上,PTP 在 Spec‑Bench 基准测试中每个解码步骤接受 >4 个标记,优于之前的投机解码基线。
方法论
- 嵌入采样过程 – 与其将 token 采样视为外部步骤,PTP 在 transformer 的输出层上进行增强,使其能够输出一个联合分布,覆盖 k 个未来 token 的块。
- 条件因式分解 – 该联合分布的因式分解方式能够尊重 token 之间的依赖关系(例如,使用仅在块内揭示先前已预测 token 的掩码自注意力)。
- 训练选项
- 蒸馏:传统的自回归模型生成教师轨迹;PTP 学习匹配教师在 token 块上的联合分布。
- 逆自回归训练:PTP 直接最大化观测序列在其块级因式分解下的似然度,利用再参数化技巧对采样决策进行反向传播。
- 解码 – 推理时,模型在一次前向传播中预测 k 个 token 的块,然后将窗口向前滑动 k 个位置(如果需要拒绝步骤,则使用更小的步幅)。
该方法兼容任何 transformer 架构(仅解码器、编码器‑解码器等),且除修改后的输出头外无需其他结构性改动。
结果与发现
| Model / Setting | 每步标记数(平均) | 相较于标准解码的加速 | BLEU / ROUGE(质量) |
|---|---|---|---|
| Vicuna‑7B + PTP (distilled) | 4.2 | ~3.8× | 与基线相当(无退化) |
| Vicuna‑7B + PTP (inverse) | 3.8 | ~3.5× | 在开放式提示上略有提升 |
| Spec‑Bench (speculative decoding) | >4 tokens/step | 业界领先 | 保持原始模型的困惑度 |
关键要点
- 延迟显著下降,因为 Transformer 调用次数减少了相当于平均块大小的倍数。
- 建模能力得以保留——质量指标与原始自回归模型持平,验证了理论上的通用性主张。
- 灵活性——两种训练方案均可使用,为实践者提供了从现有模型微调或从头训练的选项。
实际影响
- 更快的交互式 AI – 聊天机器人、代码助手以及其他实时 LLM 服务即使在普通 GPU 上也能实现近实时响应,提升用户体验。
- 成本节约 – 更少的前向传播次数意味着推理密集型工作负载(例如批量生成文档或合成数据)的计算费用降低。
- 可扩展的长文本生成 – 故事创作、报告起草或转录摘要等应用能够在不牺牲连贯性的前提下缩短实际耗时。
- 兼容现有流水线 – 由于 PTP 是解码头的直接替代品,团队可以在不重新设计分词器、API 或服务基础设施的情况下直接采用它。
限制与未来工作
- 块大小权衡 – 更大的块可以提升速度,但如果联合预测在早期出现偏差,错误传播会被放大;自适应块大小仍是一个待解的问题。
- 训练开销 – 蒸馏需要一个强大的教师模型并消耗额外算力;逆向训练可以缓解此问题,但可能需要仔细的超参数调节。
- 硬件限制 – 虽然该方法减少了遍数,但每一次遍历需要处理更大的输出空间,这在超大模型上可能会对内存造成压力。
- 未来方向 – 作者建议探索动态块预测、与量化/压缩技术的更紧密结合,以及将 PTP 扩展到多模态生成模型。
作者
- Felix Draxler
- Justus Will
- Farrin Marouf Sofian
- Theofanis Karaletsos
- Sameer Singh
- Stephan Mandt
论文信息
- arXiv ID: 2512.21323v1
- 类别: cs.CL, cs.LG
- 出版时间: 2025年12月24日
- PDF: 下载 PDF