[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

发布: 3周前 (2026年1月17日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.11518v1

概述

大型语言模型（LLM）通过标记（tokens）进行计量、定价和比较——标记是模型读取和生成的原子单位。虽然标记被视为一种通用的“货币”，但文本被拆分为标记的方式在不同模型和领域之间差异极大。本文通过实证研究这些差异，显示常见的简化做法（例如“≈ 每个标记约 4 字符”）可能具有误导性，并且标记计数在不同分词器之间并不稳定。

关键贡献

对多种流行 LLM 系列（如 GPT‑3/4、LLaMA、Claude）的分词器进行全面基准测试，覆盖多样化文本语料库（代码、科学论文、社交媒体、多语言数据）。
量化分析 token 与字符的压缩比，揭示与语言、文字体系和领域相关的系统性偏差。
对广为引用的经验法则进行批判性评估（例如 “1 token ≈ 4 characters”），并展示其适用范围的局限性。
为开发者提供实用指南，帮助估算 token 使用量、预算 API 成本，以及设计能够最小化意外 token 膨胀的提示。
开源工具（Python 库 + Notebook），可复现实验并让实践者在自己的数据上检查分词器行为。

方法论

分词器选择 – 作者收集了随主要 LLM API 和开源模型一起提供的字节对编码（BPE）、unigram 和 word‑piece 分词器。
数据集策划 – 组建了六个具代表性的语料库：(a) 英文新闻，(b) 代码片段，(c) 科学摘要，(d) 多语言维基百科摘录，(e) 非正式社交媒体帖子，(f) 法律合同。
Token‑计数测量 – 对每篇文档，记录原始字符长度、单词数以及每个分词器产生的 token 数量。
统计分析 – 计算压缩率（tokens / characters）、不同领域间的方差，以及与语言特征（例如平均词长、非 ASCII 字符的出现）之间的相关性。
启发式测试 – 将经典的 “≈ 4 个字符对应 1 个 token” 规则及其变体与实测数据进行对比，以量化误差范围。

该工作流完全可复现；所有脚本和原始结果均在 MIT 许可证下发布。

结果与发现

语料库	每个标记的平均字符数（GPT‑4）	每个标记的平均字符数（LLaMA）	与“4字符”规则的偏差
英文新闻	3.8	4.2	–5 % / +5 %
代码片段	6.1	5.7	+52 % / +43 %
科学摘要	4.5	4.8	+13 % / +20 %
多语言（混合脚本）	2.9	3.4	–27 % / –15 %
社交媒体	3.2	3.6	–20 % / –10 %
法律合同	4.0	4.3	0 % / +8 %

领域重要: 由于长标识符、符号和空白模式，分词器对代码的压缩效率远低于对散文的压缩效率。
语言与脚本影响: 主要在英文上训练的分词器会对非拉丁脚本进行过度分词，导致相同字符长度下的标记数量更高。
模型特定的怪癖: 即使使用相同的 BPE 词表，分词器在处理未知字符时也可能不同，导致标记数量相差最高可达 15 %。
启发式失效: “每标记 4 字符”规则的误差范围从 –27 %（多语言）到 +52 %（代码），因此在许多实际场景中不适用于预算或提示工程。

实际意义

成本估算 – 基于云的 LLM 定价（例如，每 1 k 令牌的美元费用）应使用 特定领域的令牌比例 而不是统一的 4 字符规则进行计算。开发者可以将论文中的比例嵌入成本模型，以避免意外账单。
提示设计 – 了解代码会增加令牌数量后，工程师可以在发送给模型之前 预压缩 或重构代码片段（例如，删除注释、缩短变量名）。
API 选择 – 在处理多语言数据时，选择一个其分词器已在目标语言上进行训练的模型可以 将令牌使用量减半，从而直接降低延迟和成本。
监控与限流 – 生产流水线可以集成开源的分词器检查工具，以 跟踪令牌漂移（例如模型升级后），并在令牌消耗激增时触发警报。
基准公平性 – 对模型效率进行比较的研究者应报告 分词器细节，并在可能的情况下，将结果归一化到统一的分词方案，以确保公平的对比。

限制与未来工作

模型范围 – 本研究聚焦于少数高知名度的 LLM 系列；新兴的开源模型及其新颖的分词策略（例如字节级 BPE、字符级分词器）未被覆盖。
静态语料库 – 虽然数据集多样，但都是静态快照；实时流（如聊天记录）可能呈现不同的分词动态。
细粒度语言分析 – 论文报告了整体比例，但未剖析具体哪些 token 类型（标点、表情符号、罕见字符）导致了差异。
未来方向 建议包括将基准扩展到 流式推理，评估 感知分词器的模型压缩 技术，以及构建 自适应 token 预算工具，自动为给定负载选择最经济的分词器。

作者

Jonathan Roberts
Kai Han
Samuel Albanie

Paper Information

arXiv ID: 2601.11518v1
Categories: cs.CL
Published: 2026年1月16日
PDF: 下载 PDF

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

Paper Information

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] CTest-Metric：统一框架评估用于CT报告生成的指标的临床有效性