[Paper] 一根绳子有多长? 对Tokenizer的简要实证分析
发布: (2026年1月17日 GMT+8 02:58)
7 min read
原文: arXiv
Source: arXiv - 2601.11518v1
概述
大型语言模型(LLM)通过标记(tokens)进行计量、定价和比较——标记是模型读取和生成的原子单位。虽然标记被视为一种通用的“货币”,但文本被拆分为标记的方式在不同模型和领域之间差异极大。本文通过实证研究这些差异,显示常见的简化做法(例如“≈ 每个标记约 4 字符”)可能具有误导性,并且标记计数在不同分词器之间并不稳定。
关键贡献
- 对多种流行 LLM 系列(如 GPT‑3/4、LLaMA、Claude)的分词器进行全面基准测试,覆盖多样化文本语料库(代码、科学论文、社交媒体、多语言数据)。
- 量化分析 token 与字符的压缩比,揭示与语言、文字体系和领域相关的系统性偏差。
- 对广为引用的经验法则进行批判性评估(例如 “1 token ≈ 4 characters”),并展示其适用范围的局限性。
- 为开发者提供实用指南,帮助估算 token 使用量、预算 API 成本,以及设计能够最小化意外 token 膨胀的提示。
- 开源工具(Python 库 + Notebook),可复现实验并让实践者在自己的数据上检查分词器行为。
方法论
- 分词器选择 – 作者收集了随主要 LLM API 和开源模型一起提供的字节对编码(BPE)、unigram 和 word‑piece 分词器。
- 数据集策划 – 组建了六个具代表性的语料库:(a) 英文新闻,(b) 代码片段,(c) 科学摘要,(d) 多语言维基百科摘录,(e) 非正式社交媒体帖子,(f) 法律合同。
- Token‑计数测量 – 对每篇文档,记录原始字符长度、单词数以及每个分词器产生的 token 数量。
- 统计分析 – 计算压缩率(tokens / characters)、不同领域间的方差,以及与语言特征(例如平均词长、非 ASCII 字符的出现)之间的相关性。
- 启发式测试 – 将经典的 “≈ 4 个字符对应 1 个 token” 规则及其变体与实测数据进行对比,以量化误差范围。
该工作流完全可复现;所有脚本和原始结果均在 MIT 许可证下发布。
结果与发现
| 语料库 | 每个标记的平均字符数(GPT‑4) | 每个标记的平均字符数(LLaMA) | 与“4字符”规则的偏差 |
|---|---|---|---|
| 英文新闻 | 3.8 | 4.2 | –5 % / +5 % |
| 代码片段 | 6.1 | 5.7 | +52 % / +43 % |
| 科学摘要 | 4.5 | 4.8 | +13 % / +20 % |
| 多语言(混合脚本) | 2.9 | 3.4 | –27 % / –15 % |
| 社交媒体 | 3.2 | 3.6 | –20 % / –10 % |
| 法律合同 | 4.0 | 4.3 | 0 % / +8 % |
- 领域重要: 由于长标识符、符号和空白模式,分词器对代码的压缩效率远低于对散文的压缩效率。
- 语言与脚本影响: 主要在英文上训练的分词器会对非拉丁脚本进行过度分词,导致相同字符长度下的标记数量更高。
- 模型特定的怪癖: 即使使用相同的 BPE 词表,分词器在处理未知字符时也可能不同,导致标记数量相差最高可达 15 %。
- 启发式失效: “每标记 4 字符”规则的误差范围从 –27 %(多语言)到 +52 %(代码),因此在许多实际场景中不适用于预算或提示工程。
实际意义
- 成本估算 – 基于云的 LLM 定价(例如,每 1 k 令牌的美元费用)应使用 特定领域的令牌比例 而不是统一的 4 字符规则进行计算。开发者可以将论文中的比例嵌入成本模型,以避免意外账单。
- 提示设计 – 了解代码会增加令牌数量后,工程师可以在发送给模型之前 预压缩 或 重构 代码片段(例如,删除注释、缩短变量名)。
- API 选择 – 在处理多语言数据时,选择一个其分词器已在目标语言上进行训练的模型可以 将令牌使用量减半,从而直接降低延迟和成本。
- 监控与限流 – 生产流水线可以集成开源的分词器检查工具,以 跟踪令牌漂移(例如模型升级后),并在令牌消耗激增时触发警报。
- 基准公平性 – 对模型效率进行比较的研究者应报告 分词器细节,并在可能的情况下,将结果归一化到统一的分词方案,以确保公平的对比。
限制与未来工作
- 模型范围 – 本研究聚焦于少数高知名度的 LLM 系列;新兴的开源模型及其新颖的分词策略(例如字节级 BPE、字符级分词器)未被覆盖。
- 静态语料库 – 虽然数据集多样,但都是静态快照;实时流(如聊天记录)可能呈现不同的分词动态。
- 细粒度语言分析 – 论文报告了整体比例,但未剖析具体哪些 token 类型(标点、表情符号、罕见字符)导致了差异。
- 未来方向 建议包括将基准扩展到 流式推理,评估 感知分词器的模型压缩 技术,以及构建 自适应 token 预算工具,自动为给定负载选择最经济的分词器。
作者
- Jonathan Roberts
- Kai Han
- Samuel Albanie
Paper Information
- arXiv ID: 2601.11518v1
- Categories: cs.CL
- Published: 2026年1月16日
- PDF: 下载 PDF