[论文] 并行标记预测语言模型

发布: 1个月前 (2025年12月25日 GMT+8 02:46)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.21323v1

概述

本文介绍了 Parallel Token Prediction (PTP)，一种新框架，使大型语言模型能够一次生成多个相互依赖的标记，而不是逐个生成。通过将采样逻辑折叠进模型本身，PTP 减少了通常主导自回归解码的延迟，同时保留了原始模型的全部表达能力。

通用并行生成 – PTP 能表示任意自回归分布，消除了限制现有多标记方法的独立性假设。
单次 Transformer 前向即联合预测多个标记 – 多个标记一起采样，显著降低长输出所需的前向传播次数。
两条训练路径 – (1) 蒸馏自预训练的自回归教师模型，(2) 逆自回归训练直接从数据中学习，无需教师。
理论保证 – 作者证明，只要容量足够，PTP 能精确恢复任意自回归序列分布。
最先进的投机解码 – 在 Vicuna‑7B 模型上，PTP 在 Spec‑Bench 基准测试中每个解码步骤接受 >4 个标记，优于之前的投机解码基线。

嵌入采样过程 – 与其将 token 采样视为外部步骤，PTP 在 transformer 的输出层上进行增强，使其能够输出一个联合分布，覆盖 k 个未来 token 的块。
条件因式分解 – 该联合分布的因式分解方式能够尊重 token 之间的依赖关系（例如，使用仅在块内揭示先前已预测 token 的掩码自注意力）。
训练选项
- 蒸馏：传统的自回归模型生成教师轨迹；PTP 学习匹配教师在 token 块上的联合分布。
- 逆自回归训练：PTP 直接最大化观测序列在其块级因式分解下的似然度，利用再参数化技巧对采样决策进行反向传播。
解码 – 推理时，模型在一次前向传播中预测 k 个 token 的块，然后将窗口向前滑动 k 个位置（如果需要拒绝步骤，则使用更小的步幅）。

该方法兼容任何 transformer 架构（仅解码器、编码器‑解码器等），且除修改后的输出头外无需其他结构性改动。

Model / Setting	每步标记数（平均）	相较于标准解码的加速	BLEU / ROUGE（质量）
Vicuna‑7B + PTP (distilled)	4.2	~3.8×	与基线相当（无退化）
Vicuna‑7B + PTP (inverse)	3.8	~3.5×	在开放式提示上略有提升
Spec‑Bench (speculative decoding)	>4 tokens/step	业界领先	保持原始模型的困惑度

关键要点