[Paper] 教老 Tokenizer 新词：用于预训练模型的高效 Tokenizer 适配

发布: 2个月前 (2025年12月4日 GMT+8 01:20)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03989v1

概览

本文解决了一个出乎意料的实用问题：在将大型预训练语言模型迁移到新领域或新语言时，如何适配分词器。作者展示了相较于重新训练整个模型，仅通过对分词器进行适度、针对性的修改——高效扩展并剪枝未使用的子词——即可提升性能、降低冗余，同时保持原模型不变。

持续 BPE 训练：一种在领域特定数据上“继续”字节对编码（byte‑pair‑encoding）合并过程的方法，避免了朴素词表扩展中出现的大量死 token。
基于叶节点的词表剪枝：一种安全移除冗余子 token（叶节点）的算法，可在不损害下游准确率的前提下缩小词表。
全面评估：在多种语言（英语、俄语、芬兰语等）和模型系列（BERT、RoBERTa、XLM‑R）上进行实验，展示了分词效率和下游任务得分的一致提升。
开源工具包：提供即用的 Python 包，实践者只需几行代码即可扩展或剪枝分词器。

基线分词器扩展 – 常规做法：在新语料上训练全新的 BPE 分词器，然后将新 token 追加到原有词表中。这往往会产生大量实际从未出现的 token，因为原分词器已经覆盖了大多数子词。
持续 BPE 训练 – 与其从头开始，作者在新数据上继续原始 BPE 合并操作。具体步骤：
- 加载原始 BPE 合并表和词表。
- 使用现有分词器对新领域语料进行分词，收集哪些合并最有价值的统计信息。
- 进行额外的合并步骤（例如 5 k–20 k 次合并），生成真正捕获新形素或领域术语的 token。
基于叶节点的剪枝 – BPE 合并树可以视为层级结构，叶节点是最小的子 token。剪枝算法如下：
- 在验证集上统计 token 使用情况。
- 移除那些即使删除也不会增加重构原始文本所需合并次数的叶 token（即它们已被更高级别的 token 完全覆盖）。
- 重新索引词表，保持模型的嵌入矩阵大小不变，或在需要时缩小矩阵。
评估流程 – 将适配后的分词器直接接入预训练模型（不进行权重微调），随后在标准基准（如 GLUE、XNLI、领域特定分类任务）上评估模型表现。

设置	分词器大小	实际使用的新 token 百分比	下游准确率变化
朴素扩展（新增 10 k token）	+10 k	~12 %	–0.3 %（GLUE 平均）
持续 BPE（新增 10 k 合并）	+10 k	~68 %	+0.6 %（GLUE 平均）
持续 BPE + 叶节点剪枝（净减 2 k）	–2 k（相较原始）	N/A	+0.5 %（GLUE 平均）
多语言 XLM‑R（俄语领域）	+5 k → 剪枝后 –1 k	73 %	+1.2 %（XNLI RU）

低成本领域适配 – 只需运行一次快速的持续 BPE，即可为已有的 BERT‑style 模型配备专门语料（法律文档、医学记录、代码片段），无需完整模型再训练。
多语言推广 – 对低资源语言，只需几千次合并即可捕获语言特有的形素，而不会膨胀共享词表。
受限内存部署 – 叶节点剪枝能够削减未使用的嵌入，对于边缘设备或无服务器推理场景尤为重要。
工具链集成 – 作者的开源包直接兼容 Hugging Face 的 tokenizers 库，只需在数据流水线中加入一行代码，例如
```
adapt_tokenizer(model, new_corpus, merges=8000)
```