[Paper] 高效免训练多标记预测 via Embedding-Space Probing
发布: (2026年3月19日 GMT+8 01:14)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.17942v1
概述
大型语言模型(LLM)在训练时预测下一个标记,但它们隐含地包含可用于预测多个标记的信息。本文提出了一种无需训练的技术,通过临时掩码标记“探测”LLM的嵌入空间,使模型能够并行生成多个未来标记,而无需权重更新或辅助草稿模型。其结果是更快、无损的生成,可直接嵌入现有推理流水线。
关键贡献
- Embedding‑space probing: 一种新颖的、零训练方法,在运行时插入从模型自身嵌入空间抽取的掩码标记,以查询多步续写。
- Speculative token tree: 从掩码标记的 logits 构建一个轻量级的 top‑K 候选续写树,然后使用基于概率的启发式方法进行剪枝。
- Parallel verification: 在一次前向传播中检查候选序列,实现无损生成并减少模型调用次数。
- Empirical gains: 在 LLaMA‑3 和 Qwen‑3 系列上,该方法相较于先前的无训练基线,使接受的生成长度提升约 8‑12 %,吞吐量提升 15‑19 %。
- Theoretical insight: 表明解码器层自然地将掩码标记表示对齐到未来标记状态,解释了该方法无需重新训练即可奏效的原因。
方法论
- Mask‑token 注入: 对于每个解码步骤,算法在输入序列中插入一个临时的 mask token(从模型的嵌入矩阵中采样的向量)。
- Logit 探测: 模型处理该掩码序列并为 mask 位置产生 logits。前 K 大的 logits 被解释为 候选下一个 token。
- 投机树构建: 通过对后续位置重复 mask‑injection,组装出一个浅层的多 token 连续可能性树。
- 剪枝: 使用轻量评分函数(token 概率的乘积)剔除低概率分支,仅保留最有前景的路径。
- 并行验证: 将存活的候选序列一次性批量送回模型,输出与模型真实下一个 token 分布匹配的最高概率路径。
- 迭代解码: 过程重复,光标前进的步数等于上一步验证通过的 token 数量。
所有这些都在原始 LLM 上运行;不需要额外的“草稿”模型、微调或强化学习。
结果与发现
| 模型 | 接受长度 ↑ | 吞吐量 ↑ |
|---|---|---|
| LLaMA‑3 (7B) | +12 % vs. baseline | +15 % |
| Qwen‑3 (14B) | +8 % – 12 % | +17 % – 19 % |
- 无损生成: 最终输出与标准的从左到右解码器产生的完全一致;未观察到质量下降。
- 鲁棒性: 在不同模型规模和架构(仅解码器的 Transformer)上均可工作。
- 消融实验: 移除剪枝步骤会使吞吐量提升下降约 6 %,验证了其重要性。
- 层分析: 早期解码层已经表现出掩码标记嵌入与未来标记状态之间的强对齐,而更深的层则细化概率分布。
实际影响
- 更快的推理 API: 云服务提供商可以集成此探测步骤,以在不增加额外硬件的情况下提供更高的请求速率。
- 成本降低: 每生成一个 token 所需的前向传播次数减少,直接转化为更低的 GPU/TPU 使用率和更低的推理费用。
- 即插即用: 由于该技术不修改模型权重,可应用于任何提供嵌入矩阵的现成大型语言模型(例如 OpenAI、Anthropic、Cohere)。
- 边缘部署: 计算资源受限的设备(移动端、物联网)可以受益于减少的模型调用次数,从而延长电池寿命并保持生成质量。
- 工具与库: 该方法易于在现有生成库(如 Hugging Face Transformers、vLLM)中实现,作为“投机解码”标志。
限制与未来工作
- Depth of speculation: 当前仅构建浅层树(通常前瞻 2‑3 个 token);更深的推测可能会受到概率衰减和更高剪枝开销的影响。
- Mask‑token selection: 从现有词表中采样掩码嵌入效果良好,但在词表非常大或子词粒度细的分词器上可能会遇到困难。
- Hardware constraints: 并行验证需要对候选序列进行批处理,这在超大模型上可能会消耗大量内存。
Future directions
- 探索基于上下文难度的自适应 K‑selection。
- 将探测与轻量草稿模型相结合,以实现更深层的推测。
- 将理论分析扩展到 encoder‑decoder 架构和多模态模型。
Bottom line: 只需“询问”一个冻结的 LLM,如果它看到占位符标记会产生什么,我们就能在无需任何训练的情况下解锁多标记前瞻。其结果是一个实用的、即插即用的加速,可使大规模语言生成更具响应性且成本更低。
作者
- Raghavv Goel
- Mukul Gagrani
- Mingu Lee
- Chris Lott
论文信息
- arXiv ID: 2603.17942v1
- 分类: cs.CL
- 出版日期: 2026年3月18日
- PDF: 下载 PDF