[Paper] 高效免训练多标记预测 via Embedding-Space Probing

发布: 1天前 (2026年3月19日 GMT+8 01:14)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.17942v1

概述

大型语言模型（LLM）在训练时预测下一个标记，但它们隐含地包含可用于预测多个标记的信息。本文提出了一种无需训练的技术，通过临时掩码标记“探测”LLM的嵌入空间，使模型能够并行生成多个未来标记，而无需权重更新或辅助草稿模型。其结果是更快、无损的生成，可直接嵌入现有推理流水线。

关键贡献

Embedding‑space probing: 一种新颖的、零训练方法，在运行时插入从模型自身嵌入空间抽取的掩码标记，以查询多步续写。
Speculative token tree: 从掩码标记的 logits 构建一个轻量级的 top‑K 候选续写树，然后使用基于概率的启发式方法进行剪枝。
Parallel verification: 在一次前向传播中检查候选序列，实现无损生成并减少模型调用次数。
Empirical gains: 在 LLaMA‑3 和 Qwen‑3 系列上，该方法相较于先前的无训练基线，使接受的生成长度提升约 8‑12 %，吞吐量提升 15‑19 %。
Theoretical insight: 表明解码器层自然地将掩码标记表示对齐到未来标记状态，解释了该方法无需重新训练即可奏效的原因。

方法论

Mask‑token 注入: 对于每个解码步骤，算法在输入序列中插入一个临时的 mask token（从模型的嵌入矩阵中采样的向量）。
Logit 探测: 模型处理该掩码序列并为 mask 位置产生 logits。前 K 大的 logits 被解释为 候选下一个 token。
投机树构建: 通过对后续位置重复 mask‑injection，组装出一个浅层的多 token 连续可能性树。
剪枝: 使用轻量评分函数（token 概率的乘积）剔除低概率分支，仅保留最有前景的路径。
并行验证: 将存活的候选序列一次性批量送回模型，输出与模型真实下一个 token 分布匹配的最高概率路径。
迭代解码: 过程重复，光标前进的步数等于上一步验证通过的 token 数量。

所有这些都在原始 LLM 上运行；不需要额外的“草稿”模型、微调或强化学习。

结果与发现

模型	接受长度 ↑	吞吐量 ↑
LLaMA‑3 (7B)	+12 % vs. baseline	+15 %
Qwen‑3 (14B)	+8 % – 12 %	+17 % – 19 %

无损生成: 最终输出与标准的从左到右解码器产生的完全一致；未观察到质量下降。
鲁棒性: 在不同模型规模和架构（仅解码器的 Transformer）上均可工作。
消融实验: 移除剪枝步骤会使吞吐量提升下降约 6 %，验证了其重要性。
层分析: 早期解码层已经表现出掩码标记嵌入与未来标记状态之间的强对齐，而更深的层则细化概率分布。

实际影响

更快的推理 API： 云服务提供商可以集成此探测步骤，以在不增加额外硬件的情况下提供更高的请求速率。
成本降低： 每生成一个 token 所需的前向传播次数减少，直接转化为更低的 GPU/TPU 使用率和更低的推理费用。
即插即用： 由于该技术不修改模型权重，可应用于任何提供嵌入矩阵的现成大型语言模型（例如 OpenAI、Anthropic、Cohere）。
边缘部署： 计算资源受限的设备（移动端、物联网）可以受益于减少的模型调用次数，从而延长电池寿命并保持生成质量。
工具与库： 该方法易于在现有生成库（如 Hugging Face Transformers、vLLM）中实现，作为“投机解码”标志。

限制与未来工作

Depth of speculation: 当前仅构建浅层树（通常前瞻 2‑3 个 token）；更深的推测可能会受到概率衰减和更高剪枝开销的影响。
Mask‑token selection: 从现有词表中采样掩码嵌入效果良好，但在词表非常大或子词粒度细的分词器上可能会遇到困难。
Hardware constraints: 并行验证需要对候选序列进行批处理，这在超大模型上可能会消耗大量内存。

Future directions

探索基于上下文难度的自适应 K‑selection。
将探测与轻量草稿模型相结合，以实现更深层的推测。
将理论分析扩展到 encoder‑decoder 架构和多模态模型。

Bottom line: 只需“询问”一个冻结的 LLM，如果它看到占位符标记会产生什么，我们就能在无需任何训练的情况下解锁多标记前瞻。其结果是一个实用的、即插即用的加速，可使大规模语言生成更具响应性且成本更低。

作者

Raghavv Goel
Mukul Gagrani
Mingu Lee
Chris Lott

论文信息

arXiv ID: 2603.17942v1
分类: cs.CL
出版日期: 2026年3月18日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

多模态大语言模型（MLLMs）在连接视觉和语言方面取得了令人印象深刻的进展，但它们仍然在空间理解方面存在困难……

[Paper] 机器翻译中的性别消歧：Decoder-Only 架构的诊断评估

虽然 Large Language Models 在广泛的 NLP 任务中取得了 state-of-the-art 的成果，但它们仍然容易受到系统性偏见的影响。其中，性别偏见 …

[论文] ShapleyLaw：一种基于博弈论的多语言 Scaling Laws 方法

在多语言预训练中，预训练模型的测试损失受到预训练数据中每种语言比例的强烈影响，即语言的…

[Paper] 只有相对排名在权重聚类的大语言模型中重要

大型语言模型（LLMs）包含数十亿参数，但许多精确数值并非关键。我们展示，最关键的是权重的相对排名……