[Paper] 任务导向的小语言模型加速
发布: (2026年2月28日 GMT+8 00:55)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.24174v1
概述
本文介绍了 TASC (Task‑Adaptive Sequence Compression),一种双管齐下的框架,能够在不牺牲准确性的前提下加速 small 语言模型(SLMs)。通过在微调期间扩展分词器(TASC‑ft)以及在推理时使用轻量级的投机解码技术(TASC‑spec),作者展示了 SLM 能够比以往更高效地处理高吞吐、低延迟的工作负载。
关键贡献
- TASC‑ft: 一个迭代微调流水线,通过将模型的分词器扩展为最常出现的输出 n‑gram,然后微调模型以利用扩大的词表。
- TASC‑spec: 一种无需训练的推测解码方法,从目标输出语料库构建任务特定的 n‑gram “草稿”模型,并在生成时与上下文混合使用。
- 词表无关草稿: 与传统的推测解码不同,TASC‑spec 不要求草稿模型和目标模型使用相同的 token 集,消除了一个重要的工程障碍。
- 实证验证: 在多个低输出变异性任务(如代码生成、表单填写)上展示了持续的推理加速(最高约 2×),同时保持任务指标(BLEU、精确匹配)在基线的 1–2 % 以内。
- 开源参考实现: 作者发布了代码和预训练的分词器,便于实践者将 TASC 插入现有流水线。
方法论
-
Token Vocabulary Expansion (TASC‑ft)
- 在代表性数据集上运行 SLM,并收集最常出现的输出 n‑gram(例如常用短语、代码片段)。
- 将这些 n‑gram 添加为分词器的新 token,从而将重复序列压缩为单个 token。
- 在相同数据上微调 SLM,同时学习新 token 的嵌入。该过程循环进行,直至边际收益趋于平稳。
-
Speculative Decoding without Training (TASC‑spec)
- 从任务的输出语料库构建一个轻量级 n‑gram 语言模型(“草稿”)。该模型基于最近的上下文预测下一个 token 序列。
- 在生成过程中,草稿提出一个短 token 块(即“草稿”)。目标 SLM 随后在一次前向传播中验证该草稿;若草稿正确,则接受这些 token,否则 SLM 回退到普通解码。
- 由于草稿基于原始 n‑gram 而非 token ID 工作,无需在草稿模型与目标模型之间对齐词表。
两个组件都是模块化的:TASC‑ft 改进模型本身,而 TASC‑spec 可在推理时插入任意兼容的 SLM。
Source: …
结果与发现
| 任务 | 基准 (tokens/s) | TASC‑ft | TASC‑spec | 综合 | 指标 Δ(例如 BLEU) |
|---|---|---|---|---|---|
| 代码片段生成 | 1,200 | +12 % | +45 % | +55 % | –0.8 % |
| 表单字段填充 | 1,800 | +9 % | +38 % | +48 % | –0.4 % |
| 简短答案问答 | 2,000 | +7 % | +30 % | +36 % | –0.2 % |
- 加速效果: 单独使用 TASC‑spec 可实现 30–45 % 的推理加速;与 TASC‑ft 结合后,提升约为 50–55 %。
- 质量保持: 所有基准的任务性能下降不足 1 %,在 SLM 的常规波动范围内。
- 可扩展性: 在输出变异性低的任务(即相同短语频繁出现的情况)中,提升更为显著,验证了 n‑gram 压缩背后的直觉。
实际意义
- 生产级 SLM 服务: 公司可以使用 TASC‑ft 对现有小模型进行改造,以减少 token 数量,降低内存占用,并在相同硬件上实现更大的批处理规模。
- 边缘部署: 词表扩展意味着推理步骤更少,这对设备端应用(例如移动键盘的自动完成)非常有价值。
- 零训练加速: TASC‑spec 可直接添加到任何已部署的 SLM,无需重新训练,为对延迟敏感的 API(如聊天助手、实时代码建议)提供即时的延迟降低。
- 成本节约: 更快的推理直接转化为更低的 GPU/CPU 使用率,降低高吞吐服务的运营开支。
- 简化流水线: 由于 TASC‑spec 绕过了草稿‑目标词表对齐,开发者无需维护并行的 tokenizer,从而减少工程开销。
局限性与未来工作
- 任务依赖性: 这些方法在输出变异性低的任务上表现出色;在高度创意的生成任务(例如故事写作)中,提升速度有限。
- 词汇膨胀风险: 过度的 token 扩展可能导致分词器体积膨胀,如果未仔细调优,可能抵消内存收益。
- 推测草稿质量: n‑gram 草稿模型较为简单;更复杂的草稿(例如轻量级 transformer 草稿)可能进一步提升加速,但会增加复杂度。
- 更广泛的评估: 未来工作可以在多语言 SLM、更多模型系列上探索 TASC,并将其与量化、剪枝等其他加速技术结合。
总体而言,TASC 提供了一条务实且对开发者友好的路径,使小型语言模型更快、更廉价,为其在真实世界的低延迟关键应用中更广泛的采用打开了大门。
作者
- Dor Tsur
- Sharon Adar
- Ran Levy
论文信息
- arXiv ID: 2602.24174v1
- 分类: cs.CL, cs.AI, cs.IT
- 出版日期: 2026年2月27日
- PDF: Download PDF