[Paper] 词语破碎,性能受损:分词对LLMs性能的影响

发布: (2025年12月26日 GMT+8 17:16)
7 min read
原文: arXiv

Source: arXiv - 2512.21933v1

概述

该论文 “Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs” 研究了一个出人意料地简单却未被充分探讨的因素——它可能会削弱大型语言模型的性能:即它们的分词器将普通单词拆分为多个子词的方式。通过量化分词的“碎片化”程度,作者们展示了更高的碎片化程度与在各种下游自然语言处理任务中准确率下降之间的相关性。

关键贡献

  • Tokenization‑Penalty Metrics – 引入一系列轻量级惩罚函数,根据给定模型的分词器对文本的拆分程度对任意文本进行打分。
  • Empirical Correlation Study – 展示了 tokenization penalty 与在情感分析、命名实体识别(NER)、问答(QA)和摘要等任务上性能下降之间的统计显著关联。
  • Cross‑Model Analysis – 在多个开源大语言模型(如 Mistral、Llama‑2、Falcon)上评估该假设,表明该效应在不同架构或规模下均保持一致。
  • Practical Diagnostic Tool – 提供开源代码用于计算惩罚值,使开发者能够在将输入喂入模型前识别“高风险”输入。
  • Guidelines for Mitigation – 给出具体的建议(例如词表扩充、提示预处理),以降低因分词导致的错误。

方法论

  1. 定义惩罚函数 – 作者设计了三个简单的度量指标:
    • 碎片化比例:每个自然词对应的子词数量。
    • 稀有子词权重:对在模型训练语料中出现频率低的子词赋予更高权重。
    • 边界破坏得分:对跨越形态学边界的切分进行惩罚(通过轻量级形态分析器检测)。
  2. 数据集准备 – 对每个任务的标准基准数据集(例如情感分析的 SST‑2、命名实体识别的 CoNLL‑2003)使用各模型的原生分词器进行分词。
  3. 相关性分析 – 对每个样本计算惩罚得分,并将其与模型预测的正确性(成功/失败二元)进行相关性分析。使用 Pearson 相关系数和置换检验评估统计显著性。
  4. 消融实验 – 作者人为“修复”高惩罚的输入,通过合并可合并的子词(在可能的情况下),观察性能恢复,以确认因果关系而非仅仅相关性。

整个流程使用 Python 实现,仅依赖模型的分词器和一个小型形态学查找表,能够在普通硬件上复现。

结果与发现

ModelAvg. Fragmentation RatioAccuracy Drop (high‑penalty vs. low‑penalty)
Mistral‑7B1.42–4.7 % (sentiment)
Llama‑2‑13B1.31–3.2 % (NER)
Falcon‑40B1.27–2.9 % (QA)
  • 统计显著性 – 所有相关性在 p < 0.001(Bonferroni 校正后)下均显著。
  • 修复收益 – 合并被拆分的词元(例如 “martial” → “martial”)可在最困难的样本上恢复 2–3 % 的绝对准确率。
  • 任务敏感性 – 词元化惩罚对依赖词汇线索的任务(NER、情感分析)的影响大于对生成任务(摘要)的影响。

总体而言,研究证实:自然词被拆分得越多,模型误解它的概率就越高。

实际意义

  • Prompt Engineering – 在向 LLM 发送提示之前,运行惩罚计算器。如果得分超过阈值,考虑重新表述或使用在 tokenizer 词汇表中仍保持完整的同义词。
  • Custom Tokenizer Extensions – 对于特定领域词汇(例如医学或法律术语),将高频词加入 tokenizer 可以显著降低碎片化并提升下游准确性。
  • Model Selection – 在为对词汇敏感的应用选择 LLM 时,比较代表性语料库上的平均碎片化比例;较低的比例通常意味着更好的开箱即用性能。
  • Debugging Tool – 开源惩罚库可以集成到 CI 流水线中,以标记可能导致失败的数据样本,从而实现早期数据清理。
  • Fine‑Tuning Strategies – 在微调过程中,使用带有 tokenization‑penalty 正则化项的损失函数,鼓励模型在关键预测时更少依赖拆分的子标记。

限制与未来工作

  • Morphological Approximation – 边界破坏分数使用简单的基于规则的分析器,可能会误判复杂形态语言中的切分。
  • Scope of Models – 实验仅聚焦于少数开源大语言模型;专有模型(例如 GPT‑4)可能表现出不同的敏感性。
  • Mitigation Techniques – 虽然论文提出了词汇扩充,但未探讨更大词表的权衡(例如,内存占用增加、推理速度变慢)。
  • Dynamic Tokenizers – 未来工作可以研究自适应分词器,能够在运行时学习合并高惩罚子标记,或采用对分词敏感的训练目标,直接惩罚碎片化。

通过揭示“断词”隐藏的代价,这项研究为开发者提供了一条实用路径,使其在不进行大幅模型改动的情况下,从现有大语言模型中挤出更高的可靠性。

作者

  • Sachin Pawar
  • Manoj Apte
  • Kshitij Jadhav
  • Girish Keshav Palshikar
  • Nitin Ramrakhiyani

论文信息

  • arXiv ID: 2512.21933v1
  • 分类: cs.CL
  • 发布时间: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »