[Paper] 一根绳子有多长? 对Tokenizer的简要实证分析

发布: (2026年1月17日 GMT+8 02:58)
7 min read
原文: arXiv

Source: arXiv - 2601.11518v1

概述

大型语言模型(LLM)通过标记(tokens)进行计量、定价和比较——标记是模型读取和生成的原子单位。虽然标记被视为一种通用的“货币”,但文本被拆分为标记的方式在不同模型和领域之间差异极大。本文通过实证研究这些差异,显示常见的简化做法(例如“≈ 每个标记约 4 字符”)可能具有误导性,并且标记计数在不同分词器之间并不稳定。

关键贡献

  • 对多种流行 LLM 系列(如 GPT‑3/4、LLaMA、Claude)的分词器进行全面基准测试,覆盖多样化文本语料库(代码、科学论文、社交媒体、多语言数据)。
  • 量化分析 token 与字符的压缩比,揭示与语言、文字体系和领域相关的系统性偏差。
  • 对广为引用的经验法则进行批判性评估(例如 “1 token ≈ 4 characters”),并展示其适用范围的局限性。
  • 为开发者提供实用指南,帮助估算 token 使用量、预算 API 成本,以及设计能够最小化意外 token 膨胀的提示。
  • 开源工具(Python 库 + Notebook),可复现实验并让实践者在自己的数据上检查分词器行为。

方法论

  1. 分词器选择 – 作者收集了随主要 LLM API 和开源模型一起提供的字节对编码(BPE)、unigram 和 word‑piece 分词器。
  2. 数据集策划 – 组建了六个具代表性的语料库:(a) 英文新闻,(b) 代码片段,(c) 科学摘要,(d) 多语言维基百科摘录,(e) 非正式社交媒体帖子,(f) 法律合同。
  3. Token‑计数测量 – 对每篇文档,记录原始字符长度、单词数以及每个分词器产生的 token 数量。
  4. 统计分析 – 计算压缩率(tokens / characters)、不同领域间的方差,以及与语言特征(例如平均词长、非 ASCII 字符的出现)之间的相关性。
  5. 启发式测试 – 将经典的 “≈ 4 个字符对应 1 个 token” 规则及其变体与实测数据进行对比,以量化误差范围。

该工作流完全可复现;所有脚本和原始结果均在 MIT 许可证下发布。

结果与发现

语料库每个标记的平均字符数(GPT‑4)每个标记的平均字符数(LLaMA)与“4字符”规则的偏差
英文新闻3.84.2–5 % / +5 %
代码片段6.15.7+52 % / +43 %
科学摘要4.54.8+13 % / +20 %
多语言(混合脚本)2.93.4–27 % / –15 %
社交媒体3.23.6–20 % / –10 %
法律合同4.04.30 % / +8 %
  • 领域重要: 由于长标识符、符号和空白模式,分词器对代码的压缩效率远低于对散文的压缩效率。
  • 语言与脚本影响: 主要在英文上训练的分词器会对非拉丁脚本进行过度分词,导致相同字符长度下的标记数量更高。
  • 模型特定的怪癖: 即使使用相同的 BPE 词表,分词器在处理未知字符时也可能不同,导致标记数量相差最高可达 15 %。
  • 启发式失效: “每标记 4 字符”规则的误差范围从 –27 %(多语言)到 +52 %(代码),因此在许多实际场景中不适用于预算或提示工程。

实际意义

  1. 成本估算 – 基于云的 LLM 定价(例如,每 1 k 令牌的美元费用)应使用 特定领域的令牌比例 而不是统一的 4 字符规则进行计算。开发者可以将论文中的比例嵌入成本模型,以避免意外账单。
  2. 提示设计 – 了解代码会增加令牌数量后,工程师可以在发送给模型之前 预压缩重构 代码片段(例如,删除注释、缩短变量名)。
  3. API 选择 – 在处理多语言数据时,选择一个其分词器已在目标语言上进行训练的模型可以 将令牌使用量减半,从而直接降低延迟和成本。
  4. 监控与限流 – 生产流水线可以集成开源的分词器检查工具,以 跟踪令牌漂移(例如模型升级后),并在令牌消耗激增时触发警报。
  5. 基准公平性 – 对模型效率进行比较的研究者应报告 分词器细节,并在可能的情况下,将结果归一化到统一的分词方案,以确保公平的对比。

限制与未来工作

  • 模型范围 – 本研究聚焦于少数高知名度的 LLM 系列;新兴的开源模型及其新颖的分词策略(例如字节级 BPE、字符级分词器)未被覆盖。
  • 静态语料库 – 虽然数据集多样,但都是静态快照;实时流(如聊天记录)可能呈现不同的分词动态。
  • 细粒度语言分析 – 论文报告了整体比例,但未剖析具体哪些 token 类型(标点、表情符号、罕见字符)导致了差异。
  • 未来方向 建议包括将基准扩展到 流式推理,评估 感知分词器的模型压缩 技术,以及构建 自适应 token 预算工具,自动为给定负载选择最经济的分词器。

作者

  • Jonathan Roberts
  • Kai Han
  • Samuel Albanie

Paper Information

  • arXiv ID: 2601.11518v1
  • Categories: cs.CL
  • Published: 2026年1月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »