[Paper] 大规模最佳土耳其子词策略:数据、词汇与形态学相互作用的系统评估

发布: (2026年2月7日 GMT+8 02:41)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.06942v1

概览

Tokenization 是将原始文本转换为神经模型可理解的形式的第一步,对于像土耳其语这样形态丰富的语言,其设计尤为关键。本文首次进行大规模、系统的土耳其语子词分词器研究,联合变更 vocabulary sizetraining‑corpus size,并评估一系列下游任务,涵盖情感分析到依存句法分析。作者还推出了一个丰富的、考虑形态学的诊断工具包,解释 为何 某些分词选择会成功或失败。

关键贡献

  • 全面的“子词清单”:同时改变词汇表大小和分词器训练数据,实现对数据‑词汇‑性能三角关系的受控探索。
  • 广泛的分词器比较:在相同参数预算下,对 WordPiece、基于形态层面的分词器(在形素边界上训练)以及纯字符基线进行基准测试。
  • 形态感知诊断:新颖的内在指标(边界层面的微观/宏观 F1、词形‑原子性与表层匹配、过度/不足分割指数、CER/WER、延续率、词缀类型覆盖率),用于将分词质量与下游结果关联。
  • 广泛的下游评估:在语义任务(自然语言推理、语义相似度、情感分析、命名实体识别)、句法任务(词性标注、依存句法分析)以及专门的形态探针上进行测试。
  • 开源发布:代码、分词器流水线和预训练模型均已公开,可为土耳其语及其他形态丰富语言的未来研究提供可复现的基线。

方法论

  1. 数据‑词汇耦合 – 作者创建了多个训练语料库(规模在 10 M 到 100 M 土耳其语句子之间),并对每个语料库训练词表大小为 8 k、16 k、32 k 和 64 k 词元的分词器。这样可以确保任何性能变化都归因于数据规模与词表大小的相互作用,而不是其他不可控因素。

  2. 分词器族

    • WordPiece:BERT 系列模型使用的标准子词算法。
    • 形态层级:强制令词元与通过高质量土耳其形态分析器获得的词素边界对齐。
    • 字符基线:每个字符视为一个词元,作为分割粒度的下限。
  3. 训练方案 – 所有分词器均在相同的原始土耳其语语料上训练,使用相同的超参数(例如学习率、训练步数),以保持各族之间的参数预算恒定。

  4. 评估套件

    • 内在评估:形态感知工具包衡量分词边界与真实词素边界的匹配程度,量化过度/不足分割,并给出基于编辑距离的分数。
    • 外在评估:在相同架构的微调 Transformer 模型上进行评估,覆盖 7 项下游任务,提供真实场景的性能图景。
  5. 分析流程 – 通过相关性分析将内在诊断指标与下游得分关联,揭示对不同任务类型最关键的分词属性。

结果与发现

  • 词汇量重要,但仅限于一定程度 – 对于语义任务而言,从 8 k 增至 32 k token 可获得显著提升,而 64 k 的增益则出现递减。
  • 形态层面的分词器在句法密集任务上表现出色 – 当分词器遵循词素边界时,词性标注和依存句法分析相较于 WordPiece 可提升最高 3.2 % 绝对 F1
  • 字符基线在所有任务上均落后 – 虽然字符分词能够完美覆盖词素,但缺乏更高层次的单元会削弱模型效率和下游准确率。
  • 数据规模放大优势 – 更大的训练语料库(≥ 50 M 句子)使形态感知分词的优势更加明显,尤其是在土耳其语实体识别等低资源下游任务中。
  • 诊断工具包可预测性能 – 边界层面的微观 F1 与词缀类型覆盖率呈强相关(ρ ≈ 0.78),与句法任务的下游 F1 关联紧密,证实细粒度的 token‑boundary 质量是模型成功的关键。

实际影响

  • 模型构建者 现在可以根据任务需求选择分词器策略:对解析、词性标注或任何对句法忠实度至关重要的任务使用形态感知分词器;对词汇量适中即可的通用语义任务则继续使用 WordPiece。
  • 资源受限的团队 可以通过选择在约 20 M 句子语料上训练的 32 k WordPiece 词表来节省计算资源,而在情感分析或 NLI 上几乎不牺牲性能。
  • 流水线集成 – 已发布的分词器流水线可直接嵌入现有 Hugging Face 工作流,开发者只需一行代码即可切换分词器,立刻获得收益。
  • 跨语言迁移 – 该方法论和诊断工具与语言无关,为构建其他黏着语(如芬兰语、匈牙利语、韩语)的高效分词器提供了蓝图。

限制与未来工作

  • 形态分析器依赖 – 形态层面的分词器依赖高质量的分析器;缺乏此类工具的语言可能无法获得相同的收益。
  • 下游任务范围 – 虽然该套件覆盖面广,但未包括以生成为主的任务(例如机器翻译、摘要),这些任务中分词的影响可能不同。
  • 计算预算 – 在最大语料上训练大词表仍然需要大量 GPU 资源,这对小团队可能是个障碍。
  • 未来方向:作者建议将评估扩展到生成模型,探索无监督的形素发现以降低对外部分析器的依赖,并将诊断工具套件应用于多语言分词器,以研究跨语言迁移动态。

作者

  • Duygu Altinok

论文信息

  • arXiv ID: 2602.06942v1
  • 分类: cs.CL, cs.AI
  • 发表时间: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 数的表征几何

认知科学中的一个核心问题是,概念表征是汇聚到共享的流形以支持泛化,还是分散成正交的……