[Paper] 教老 Tokenizer 新词:用于预训练模型的高效 Tokenizer 适配
Source: arXiv - 2512.03989v1
概览
本文解决了一个出乎意料的实用问题:在将大型预训练语言模型迁移到新领域或新语言时,如何适配分词器。作者展示了相较于重新训练整个模型,仅通过对分词器进行适度、针对性的修改——高效扩展并剪枝未使用的子词——即可提升性能、降低冗余,同时保持原模型不变。
关键贡献
- 持续 BPE 训练:一种在领域特定数据上“继续”字节对编码(byte‑pair‑encoding)合并过程的方法,避免了朴素词表扩展中出现的大量死 token。
- 基于叶节点的词表剪枝:一种安全移除冗余子 token(叶节点)的算法,可在不损害下游准确率的前提下缩小词表。
- 全面评估:在多种语言(英语、俄语、芬兰语等)和模型系列(BERT、RoBERTa、XLM‑R)上进行实验,展示了分词效率和下游任务得分的一致提升。
- 开源工具包:提供即用的 Python 包,实践者只需几行代码即可扩展或剪枝分词器。
方法论
-
基线分词器扩展 – 常规做法:在新语料上训练全新的 BPE 分词器,然后将新 token 追加到原有词表中。这往往会产生大量实际从未出现的 token,因为原分词器已经覆盖了大多数子词。
-
持续 BPE 训练 – 与其从头开始,作者在新数据上继续原始 BPE 合并操作。具体步骤:
- 加载原始 BPE 合并表和词表。
- 使用现有分词器对新领域语料进行分词,收集哪些合并最有价值的统计信息。
- 进行额外的合并步骤(例如 5 k–20 k 次合并),生成真正捕获新形素或领域术语的 token。
-
基于叶节点的剪枝 – BPE 合并树可以视为层级结构,叶节点是最小的子 token。剪枝算法如下:
- 在验证集上统计 token 使用情况。
- 移除那些即使删除也不会增加重构原始文本所需合并次数的叶 token(即它们已被更高级别的 token 完全覆盖)。
- 重新索引词表,保持模型的嵌入矩阵大小不变,或在需要时缩小矩阵。
-
评估流程 – 将适配后的分词器直接接入预训练模型(不进行权重微调),随后在标准基准(如 GLUE、XNLI、领域特定分类任务)上评估模型表现。
结果与发现
| 设置 | 分词器大小 | 实际使用的新 token 百分比 | 下游准确率变化 |
|---|---|---|---|
| 朴素扩展(新增 10 k token) | +10 k | ~12 % | –0.3 %(GLUE 平均) |
| 持续 BPE(新增 10 k 合并) | +10 k | ~68 % | +0.6 %(GLUE 平均) |
| 持续 BPE + 叶节点剪枝(净减 2 k) | –2 k(相较原始) | N/A | +0.5 %(GLUE 平均) |
| 多语言 XLM‑R(俄语领域) | +5 k → 剪枝后 –1 k | 73 % | +1.2 %(XNLI RU) |
- 更高利用率:持续 BPE 使新增词表的使用率提升 显著(高达 5‑6 倍)。
- 无退化:剪枝可去除约 20 % 的原始词表而不出现可测量的性能下降,有时甚至因减少 token 碎片化而略有提升。
- 速度与内存:更小、更整洁的词表带来约 3 % 的分词加速,并略微降低 GPU 内存占用(嵌入查找次数减少)。
实际意义
-
低成本领域适配 – 只需运行一次快速的持续 BPE,即可为已有的 BERT‑style 模型配备专门语料(法律文档、医学记录、代码片段),无需完整模型再训练。
-
多语言推广 – 对低资源语言,只需几千次合并即可捕获语言特有的形素,而不会膨胀共享词表。
-
受限内存部署 – 叶节点剪枝能够削减未使用的嵌入,对于边缘设备或无服务器推理场景尤为重要。
-
工具链集成 – 作者的开源包直接兼容 Hugging Face 的
tokenizers库,只需在数据流水线中加入一行代码,例如adapt_tokenizer(model, new_corpus, merges=8000)
局限性与未来工作
- 依赖原始 BPE 质量 – 若基础分词器训练质量低下(例如词表过小),持续 BPE 的提升空间有限;作者指出在极低容量词表上收益递减。
- 静态嵌入 – 本研究保持模型权重冻结;将分词器适配与轻量级嵌入微调相结合可能带来进一步提升,留待后续探索。
- 评估范围 – 实验聚焦于分类基准;生成任务(如摘要、翻译)对分词变化的响应可能不同,值得单独研究。
- 自动化 – 目前仍需手动设定合并次数或剪枝阈值;开发自适应停止准则是一个有前景的方向。
作者
- Taido Purason
- Pavel Chizhov
- Ivan P. Yamshchikov
- Mark Fishel
论文信息
- arXiv 编号: 2512.03989v1
- 分类: cs.CL
- 发布日期: 2025 年 12 月 3 日
- PDF: Download PDF