[Paper] 任务导向的小语言模型加速

发布: (2026年2月28日 GMT+8 00:55)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.24174v1

概述

本文介绍了 TASC (Task‑Adaptive Sequence Compression),一种双管齐下的框架,能够在不牺牲准确性的前提下加速 small 语言模型(SLMs)。通过在微调期间扩展分词器(TASC‑ft)以及在推理时使用轻量级的投机解码技术(TASC‑spec),作者展示了 SLM 能够比以往更高效地处理高吞吐、低延迟的工作负载。

关键贡献

  • TASC‑ft: 一个迭代微调流水线,通过将模型的分词器扩展为最常出现的输出 n‑gram,然后微调模型以利用扩大的词表。
  • TASC‑spec: 一种无需训练的推测解码方法,从目标输出语料库构建任务特定的 n‑gram “草稿”模型,并在生成时与上下文混合使用。
  • 词表无关草稿: 与传统的推测解码不同,TASC‑spec 不要求草稿模型和目标模型使用相同的 token 集,消除了一个重要的工程障碍。
  • 实证验证: 在多个低输出变异性任务(如代码生成、表单填写)上展示了持续的推理加速(最高约 2×),同时保持任务指标(BLEU、精确匹配)在基线的 1–2 % 以内。
  • 开源参考实现: 作者发布了代码和预训练的分词器,便于实践者将 TASC 插入现有流水线。

方法论

  1. Token Vocabulary Expansion (TASC‑ft)

    • 在代表性数据集上运行 SLM,并收集最常出现的输出 n‑gram(例如常用短语、代码片段)。
    • 将这些 n‑gram 添加为分词器的新 token,从而将重复序列压缩为单个 token。
    • 在相同数据上微调 SLM,同时学习新 token 的嵌入。该过程循环进行,直至边际收益趋于平稳。
  2. Speculative Decoding without Training (TASC‑spec)

    • 从任务的输出语料库构建一个轻量级 n‑gram 语言模型(“草稿”)。该模型基于最近的上下文预测下一个 token 序列。
    • 在生成过程中,草稿提出一个短 token 块(即“草稿”)。目标 SLM 随后在一次前向传播中验证该草稿;若草稿正确,则接受这些 token,否则 SLM 回退到普通解码。
    • 由于草稿基于原始 n‑gram 而非 token ID 工作,无需在草稿模型与目标模型之间对齐词表。

两个组件都是模块化的:TASC‑ft 改进模型本身,而 TASC‑spec 可在推理时插入任意兼容的 SLM。

Source:

结果与发现

任务基准 (tokens/s)TASC‑ftTASC‑spec综合指标 Δ(例如 BLEU)
代码片段生成1,200+12 %+45 %+55 %–0.8 %
表单字段填充1,800+9 %+38 %+48 %–0.4 %
简短答案问答2,000+7 %+30 %+36 %–0.2 %
  • 加速效果: 单独使用 TASC‑spec 可实现 30–45 % 的推理加速;与 TASC‑ft 结合后,提升约为 50–55 %。
  • 质量保持: 所有基准的任务性能下降不足 1 %,在 SLM 的常规波动范围内。
  • 可扩展性: 在输出变异性低的任务(即相同短语频繁出现的情况)中,提升更为显著,验证了 n‑gram 压缩背后的直觉。

实际意义

  • 生产级 SLM 服务: 公司可以使用 TASC‑ft 对现有小模型进行改造,以减少 token 数量,降低内存占用,并在相同硬件上实现更大的批处理规模。
  • 边缘部署: 词表扩展意味着推理步骤更少,这对设备端应用(例如移动键盘的自动完成)非常有价值。
  • 零训练加速: TASC‑spec 可直接添加到任何已部署的 SLM,无需重新训练,为对延迟敏感的 API(如聊天助手、实时代码建议)提供即时的延迟降低。
  • 成本节约: 更快的推理直接转化为更低的 GPU/CPU 使用率,降低高吞吐服务的运营开支。
  • 简化流水线: 由于 TASC‑spec 绕过了草稿‑目标词表对齐,开发者无需维护并行的 tokenizer,从而减少工程开销。

局限性与未来工作

  • 任务依赖性: 这些方法在输出变异性低的任务上表现出色;在高度创意的生成任务(例如故事写作)中,提升速度有限。
  • 词汇膨胀风险: 过度的 token 扩展可能导致分词器体积膨胀,如果未仔细调优,可能抵消内存收益。
  • 推测草稿质量: n‑gram 草稿模型较为简单;更复杂的草稿(例如轻量级 transformer 草稿)可能进一步提升加速,但会增加复杂度。
  • 更广泛的评估: 未来工作可以在多语言 SLM、更多模型系列上探索 TASC,并将其与量化、剪枝等其他加速技术结合。

总体而言,TASC 提供了一条务实且对开发者友好的路径,使小型语言模型更快、更廉价,为其在真实世界的低延迟关键应用中更广泛的采用打开了大门。

作者

  • Dor Tsur
  • Sharon Adar
  • Ran Levy

论文信息

  • arXiv ID: 2602.24174v1
  • 分类: cs.CL, cs.AI, cs.IT
  • 出版日期: 2026年2月27日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »