AI 不仅仅是有偏见的,它还碎片化——而且你为此付费。
Source: Dev.to
当人们谈论 AI 偏见时,通常指的是有害的输出或不公平的预测。
但还有一个更深层次的因素,大多数人忽视了它。
标记化:成本与性能的隐藏驱动因素
在模型理解你的句子之前,它会将其拆分为标记(tokens)。这一过程悄然决定了:
- 你需要支付的费用
- 你获得的上下文量
- 模型推理的质量
如果你使用的是较不常见的语言,实际上可能会付出更高的费用——且性能更差。
标记化工作原理
大型语言模型并不读取单词——它们读取标记。标记器根据训练语料库中的出现频率将文本拆分为子词片段。由于常见的英文模式在网络数据中占主导,这些模式会形成紧凑的标记。出现频率较低的语言和方言则会被拆分成更多碎片。
具体后果
拿两句不同语言但意义相同的句子来说。由于英文在训练数据中出现的频率远高于其他语言,英文句子通常可以压缩成更少的标记,而其非英文对应句子则会产生更多标记。标记数量增多意味着:
- 更高的 API 费用(按标记计费)
- 更快耗尽上下文窗口(可用推理步骤更少)
- 更大的截断风险
- 实际性能下降
来自学术工作和基准测试的证据
这并非假设——学术研究已经记录到语言之间的 token 差异可能高达数量级,这导致非英语用户为相同服务支付更高费用,并且在推理时获得的上下文更少。
Tokka‑Bench
现在已有开源工具系统性地凸显这些不平等。其中一个项目是 Tokka‑Bench,它是一个基准,用于评估不同分词器在 100 种自然语言和 20 种编程语言上的表现,使用真实的多语言文本语料库。
Tokka‑Bench 不仅仅是计数 token——它还衡量:
- 效率(每个 token 的字节数) – 分词器压缩文本的效果
- 覆盖度(唯一 token 数) – 脚本或语言的表示程度
- 子词肥度 – 每个语义单元需要多少 token
- 单词拆分率
发现
- 在低资源语言中,分词器往往需要 2×–3× 更多的 token 才能编码相同的语义内容,相较于英语。
- 同一个想法在英语中可能只需一半的 token,而在波斯语、印地语或阿姆哈拉语中则需要更多。
- 推理成本随 token 数量而增长,因此处理非英语内容的费用更高。
- 在 token 消耗大的语言中,长文档会更快填满模型的上下文窗口,削弱模型对长输入的推理能力。
- 某些分词器(例如针对特定语言优化的模型)在这些语言上具有更低的子词肥度和更好的覆盖度,而其他分词器在主流脚本之外的表现则较差。
现实世界的影响
每个模型都有有限的上下文窗口(例如,8 k、32 k、128 k 令牌)。如果一种语言会膨胀令牌数量:
- 你的文档会更快填满窗口。
- 模型在长对话中“看到”的历史更少。
- 摘要和推理链会更早失效。
API 可能保持不变,但一旦令牌效率不同,所获得的可用智能就会因语言而异。
经济偏见
分词器优化的是频率和压缩,而不是公平或公正。由于频率反映了网络数据分布的不均衡,在不平等的数据上进行优化会产生不平等的基础设施。非英语用户常常会遇到:
- 每个语义单元的推理成本更高
- 上下文消耗更快
- 有效推理能力更低
- 在摘要、长篇问答等任务上的表现更差
这就是 经济偏见——微妙、普遍且仅靠输出过滤难以解决。
朝着更公平的 AI 系统
要构建更公平的 AI 系统,我们必须把分词视为结构性基础设施,而不是偶然的预处理。这需要:
- 每种语言的 token 成本审计
- 上下文效率基准测试
- 平衡的分词器训练语料库
- 有意的词汇分配
- 公开的碎片化指标
偏见并不是从答案开始的。
它始于单词的第一次切分。
像 Tokka‑Bench 这样的项目为我们提供了衡量和解决这种隐藏偏见所需的工具。