AI 不仅仅是有偏见的，它还碎片化——而且你为此付费。

发布: 2个月前 (2026年2月19日 GMT+8 18:15)

6 分钟阅读

原文: Dev.to

Source: Dev.to

当人们谈论 AI 偏见时，通常指的是有害的输出或不公平的预测。
但还有一个更深层次的因素，大多数人忽视了它。

标记化：成本与性能的隐藏驱动因素

在模型理解你的句子之前，它会将其拆分为标记（tokens）。这一过程悄然决定了：

你需要支付的费用
你获得的上下文量
模型推理的质量

如果你使用的是较不常见的语言，实际上可能会付出更高的费用——且性能更差。

标记化工作原理

大型语言模型并不读取单词——它们读取标记。标记器根据训练语料库中的出现频率将文本拆分为子词片段。由于常见的英文模式在网络数据中占主导，这些模式会形成紧凑的标记。出现频率较低的语言和方言则会被拆分成更多碎片。

具体后果

拿两句不同语言但意义相同的句子来说。由于英文在训练数据中出现的频率远高于其他语言，英文句子通常可以压缩成更少的标记，而其非英文对应句子则会产生更多标记。标记数量增多意味着：

更高的 API 费用（按标记计费）
更快耗尽上下文窗口（可用推理步骤更少）
更大的截断风险
实际性能下降

来自学术工作和基准测试的证据

这并非假设——学术研究已经记录到语言之间的 token 差异可能高达数量级，这导致非英语用户为相同服务支付更高费用，并且在推理时获得的上下文更少。

Tokka‑Bench

现在已有开源工具系统性地凸显这些不平等。其中一个项目是 Tokka‑Bench，它是一个基准，用于评估不同分词器在 100 种自然语言和 20 种编程语言上的表现，使用真实的多语言文本语料库。

Tokka‑Bench 不仅仅是计数 token——它还衡量：

效率（每个 token 的字节数） – 分词器压缩文本的效果
覆盖度（唯一 token 数） – 脚本或语言的表示程度
子词肥度 – 每个语义单元需要多少 token
单词拆分率

发现

在低资源语言中，分词器往往需要 2×–3× 更多的 token 才能编码相同的语义内容，相较于英语。
同一个想法在英语中可能只需一半的 token，而在波斯语、印地语或阿姆哈拉语中则需要更多。
推理成本随 token 数量而增长，因此处理非英语内容的费用更高。
在 token 消耗大的语言中，长文档会更快填满模型的上下文窗口，削弱模型对长输入的推理能力。
某些分词器（例如针对特定语言优化的模型）在这些语言上具有更低的子词肥度和更好的覆盖度，而其他分词器在主流脚本之外的表现则较差。

现实世界的影响

每个模型都有有限的上下文窗口（例如，8 k、32 k、128 k 令牌）。如果一种语言会膨胀令牌数量：

你的文档会更快填满窗口。
模型在长对话中“看到”的历史更少。
摘要和推理链会更早失效。

API 可能保持不变，但一旦令牌效率不同，所获得的可用智能就会因语言而异。

经济偏见

分词器优化的是频率和压缩，而不是公平或公正。由于频率反映了网络数据分布的不均衡，在不平等的数据上进行优化会产生不平等的基础设施。非英语用户常常会遇到：

每个语义单元的推理成本更高
上下文消耗更快
有效推理能力更低
在摘要、长篇问答等任务上的表现更差

这就是 经济偏见——微妙、普遍且仅靠输出过滤难以解决。

朝着更公平的 AI 系统

要构建更公平的 AI 系统，我们必须把分词视为结构性基础设施，而不是偶然的预处理。这需要：

每种语言的 token 成本审计
上下文效率基准测试
平衡的分词器训练语料库
有意的词汇分配
公开的碎片化指标

偏见并不是从答案开始的。
它始于单词的第一次切分。

像 Tokka‑Bench 这样的项目为我们提供了衡量和解决这种隐藏偏见所需的工具。

AI 不仅仅是有偏见的，它还碎片化——而且你为此付费。

标记化：成本与性能的隐藏驱动因素

标记化工作原理

具体后果

来自学术工作和基准测试的证据

Tokka‑Bench

发现

现实世界的影响

经济偏见

朝着更公平的 AI 系统

相关文章

谷歌推出‘Gemini 3.1 Pro’…以 Opus 4.6 半价夺回 AI 头号位置

Anthropic：中国AI公司创建了24,000个用于distillation attacks的欺诈账户

一名工程师在一小时内打造了生产级 SaaS 产品：这背后的治理系统让它成为可能

我们如何处理对话代理中的‘灰色地带’逻辑