[Paper] 任务导向的小语言模型加速

发布: 3天前 (2026年2月28日 GMT+8 00:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.24174v1

概述

本文介绍了 TASC (Task‑Adaptive Sequence Compression)，一种双管齐下的框架，能够在不牺牲准确性的前提下加速 small 语言模型（SLMs）。通过在微调期间扩展分词器（TASC‑ft）以及在推理时使用轻量级的投机解码技术（TASC‑spec），作者展示了 SLM 能够比以往更高效地处理高吞吐、低延迟的工作负载。

关键贡献

TASC‑ft: 一个迭代微调流水线，通过将模型的分词器扩展为最常出现的输出 n‑gram，然后微调模型以利用扩大的词表。
TASC‑spec: 一种无需训练的推测解码方法，从目标输出语料库构建任务特定的 n‑gram “草稿”模型，并在生成时与上下文混合使用。
词表无关草稿: 与传统的推测解码不同，TASC‑spec 不要求草稿模型和目标模型使用相同的 token 集，消除了一个重要的工程障碍。
实证验证: 在多个低输出变异性任务（如代码生成、表单填写）上展示了持续的推理加速（最高约 2×），同时保持任务指标（BLEU、精确匹配）在基线的 1–2 % 以内。
开源参考实现: 作者发布了代码和预训练的分词器，便于实践者将 TASC 插入现有流水线。

方法论

Token Vocabulary Expansion (TASC‑ft)
- 在代表性数据集上运行 SLM，并收集最常出现的输出 n‑gram（例如常用短语、代码片段）。
- 将这些 n‑gram 添加为分词器的新 token，从而将重复序列压缩为单个 token。
- 在相同数据上微调 SLM，同时学习新 token 的嵌入。该过程循环进行，直至边际收益趋于平稳。
Speculative Decoding without Training (TASC‑spec)
- 从任务的输出语料库构建一个轻量级 n‑gram 语言模型（“草稿”）。该模型基于最近的上下文预测下一个 token 序列。
- 在生成过程中，草稿提出一个短 token 块（即“草稿”）。目标 SLM 随后在一次前向传播中验证该草稿；若草稿正确，则接受这些 token，否则 SLM 回退到普通解码。
- 由于草稿基于原始 n‑gram 而非 token ID 工作，无需在草稿模型与目标模型之间对齐词表。

两个组件都是模块化的：TASC‑ft 改进模型本身，而 TASC‑spec 可在推理时插入任意兼容的 SLM。

Source: …

结果与发现

任务	基准 (tokens/s)	TASC‑ft	TASC‑spec	综合	指标 Δ（例如 BLEU）
代码片段生成	1,200	+12 %	+45 %	+55 %	–0.8 %
表单字段填充	1,800	+9 %	+38 %	+48 %	–0.4 %
简短答案问答	2,000	+7 %	+30 %	+36 %	–0.2 %

加速效果： 单独使用 TASC‑spec 可实现 30–45 % 的推理加速；与 TASC‑ft 结合后，提升约为 50–55 %。
质量保持： 所有基准的任务性能下降不足 1 %，在 SLM 的常规波动范围内。
可扩展性： 在输出变异性低的任务（即相同短语频繁出现的情况）中，提升更为显著，验证了 n‑gram 压缩背后的直觉。

实际意义

生产级 SLM 服务： 公司可以使用 TASC‑ft 对现有小模型进行改造，以减少 token 数量，降低内存占用，并在相同硬件上实现更大的批处理规模。
边缘部署： 词表扩展意味着推理步骤更少，这对设备端应用（例如移动键盘的自动完成）非常有价值。
零训练加速： TASC‑spec 可直接添加到任何已部署的 SLM，无需重新训练，为对延迟敏感的 API（如聊天助手、实时代码建议）提供即时的延迟降低。
成本节约： 更快的推理直接转化为更低的 GPU/CPU 使用率，降低高吞吐服务的运营开支。
简化流水线： 由于 TASC‑spec 绕过了草稿‑目标词表对齐，开发者无需维护并行的 tokenizer，从而减少工程开销。

局限性与未来工作

任务依赖性： 这些方法在输出变异性低的任务上表现出色；在高度创意的生成任务（例如故事写作）中，提升速度有限。
词汇膨胀风险： 过度的 token 扩展可能导致分词器体积膨胀，如果未仔细调优，可能抵消内存收益。
推测草稿质量： n‑gram 草稿模型较为简单；更复杂的草稿（例如轻量级 transformer 草稿）可能进一步提升加速，但会增加复杂度。
更广泛的评估： 未来工作可以在多语言 SLM、更多模型系列上探索 TASC，并将其与量化、剪枝等其他加速技术结合。

总体而言，TASC 提供了一条务实且对开发者友好的路径，使小型语言模型更快、更廉价，为其在真实世界的低延迟关键应用中更广泛的采用打开了大门。

作者

Dor Tsur
Sharon Adar
Ran Levy

论文信息

arXiv ID: 2602.24174v1
分类: cs.CL, cs.AI, cs.IT
出版日期: 2026年2月27日
PDF: Download PDF

[Paper] 任务导向的小语言模型加速

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] LLM 能从自己的话语中受益吗？

[Paper] 驯服动量：通过低秩近似重新思考优化器状态

[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积

[Paper] MT-PingEval：评估多轮协作中的私有信息游戏