[Paper] 高效免训练多标记预测 via Embedding-Space Probing

发布: (2026年3月19日 GMT+8 01:14)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.17942v1

概述

大型语言模型(LLM)在训练时预测下一个标记,但它们隐含地包含可用于预测多个标记的信息。本文提出了一种无需训练的技术,通过临时掩码标记“探测”LLM的嵌入空间,使模型能够并行生成多个未来标记,而无需权重更新或辅助草稿模型。其结果是更快、无损的生成,可直接嵌入现有推理流水线。

关键贡献

  • Embedding‑space probing: 一种新颖的、零训练方法,在运行时插入从模型自身嵌入空间抽取的掩码标记,以查询多步续写。
  • Speculative token tree: 从掩码标记的 logits 构建一个轻量级的 top‑K 候选续写树,然后使用基于概率的启发式方法进行剪枝。
  • Parallel verification: 在一次前向传播中检查候选序列,实现无损生成并减少模型调用次数。
  • Empirical gains: 在 LLaMA‑3 和 Qwen‑3 系列上,该方法相较于先前的无训练基线,使接受的生成长度提升约 8‑12 %,吞吐量提升 15‑19 %。
  • Theoretical insight: 表明解码器层自然地将掩码标记表示对齐到未来标记状态,解释了该方法无需重新训练即可奏效的原因。

方法论

  1. Mask‑token 注入: 对于每个解码步骤,算法在输入序列中插入一个临时的 mask token(从模型的嵌入矩阵中采样的向量)。
  2. Logit 探测: 模型处理该掩码序列并为 mask 位置产生 logits。前 K 大的 logits 被解释为 候选下一个 token
  3. 投机树构建: 通过对后续位置重复 mask‑injection,组装出一个浅层的多 token 连续可能性树。
  4. 剪枝: 使用轻量评分函数(token 概率的乘积)剔除低概率分支,仅保留最有前景的路径。
  5. 并行验证: 将存活的候选序列一次性批量送回模型,输出与模型真实下一个 token 分布匹配的最高概率路径。
  6. 迭代解码: 过程重复,光标前进的步数等于上一步验证通过的 token 数量。

所有这些都在原始 LLM 上运行;不需要额外的“草稿”模型、微调或强化学习。

结果与发现

模型接受长度 ↑吞吐量 ↑
LLaMA‑3 (7B)+12 % vs. baseline+15 %
Qwen‑3 (14B)+8 % – 12 %+17 % – 19 %
  • 无损生成: 最终输出与标准的从左到右解码器产生的完全一致;未观察到质量下降。
  • 鲁棒性: 在不同模型规模和架构(仅解码器的 Transformer)上均可工作。
  • 消融实验: 移除剪枝步骤会使吞吐量提升下降约 6 %,验证了其重要性。
  • 层分析: 早期解码层已经表现出掩码标记嵌入与未来标记状态之间的强对齐,而更深的层则细化概率分布。

实际影响

  • 更快的推理 API: 云服务提供商可以集成此探测步骤,以在不增加额外硬件的情况下提供更高的请求速率。
  • 成本降低: 每生成一个 token 所需的前向传播次数减少,直接转化为更低的 GPU/TPU 使用率和更低的推理费用。
  • 即插即用: 由于该技术不修改模型权重,可应用于任何提供嵌入矩阵的现成大型语言模型(例如 OpenAI、Anthropic、Cohere)。
  • 边缘部署: 计算资源受限的设备(移动端、物联网)可以受益于减少的模型调用次数,从而延长电池寿命并保持生成质量。
  • 工具与库: 该方法易于在现有生成库(如 Hugging Face Transformers、vLLM)中实现,作为“投机解码”标志。

限制与未来工作

  • Depth of speculation: 当前仅构建浅层树(通常前瞻 2‑3 个 token);更深的推测可能会受到概率衰减和更高剪枝开销的影响。
  • Mask‑token selection: 从现有词表中采样掩码嵌入效果良好,但在词表非常大或子词粒度细的分词器上可能会遇到困难。
  • Hardware constraints: 并行验证需要对候选序列进行批处理,这在超大模型上可能会消耗大量内存。

Future directions

  • 探索基于上下文难度的自适应 K‑selection。
  • 将探测与轻量草稿模型相结合,以实现更深层的推测。
  • 将理论分析扩展到 encoder‑decoder 架构和多模态模型。

Bottom line: 只需“询问”一个冻结的 LLM,如果它看到占位符标记会产生什么,我们就能在无需任何训练的情况下解锁多标记前瞻。其结果是一个实用的、即插即用的加速,可使大规模语言生成更具响应性且成本更低。

作者

  • Raghavv Goel
  • Mukul Gagrani
  • Mingu Lee
  • Chris Lott

论文信息

  • arXiv ID: 2603.17942v1
  • 分类: cs.CL
  • 出版日期: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »