AI 不仅仅是有偏见的,它还碎片化——而且你为此付费。

发布: (2026年2月19日 GMT+8 18:15)
6 分钟阅读
原文: Dev.to

Source: Dev.to

当人们谈论 AI 偏见时,通常指的是有害的输出或不公平的预测。
但还有一个更深层次的因素,大多数人忽视了它。

标记化:成本与性能的隐藏驱动因素

在模型理解你的句子之前,它会将其拆分为标记(tokens)。这一过程悄然决定了:

  • 你需要支付的费用
  • 你获得的上下文量
  • 模型推理的质量

如果你使用的是较不常见的语言,实际上可能会付出更高的费用——且性能更差。

标记化工作原理

大型语言模型并不读取单词——它们读取标记。标记器根据训练语料库中的出现频率将文本拆分为子词片段。由于常见的英文模式在网络数据中占主导,这些模式会形成紧凑的标记。出现频率较低的语言和方言则会被拆分成更多碎片。

具体后果

拿两句不同语言但意义相同的句子来说。由于英文在训练数据中出现的频率远高于其他语言,英文句子通常可以压缩成更少的标记,而其非英文对应句子则会产生更多标记。标记数量增多意味着:

  • 更高的 API 费用(按标记计费)
  • 更快耗尽上下文窗口(可用推理步骤更少)
  • 更大的截断风险
  • 实际性能下降

来自学术工作和基准测试的证据

这并非假设——学术研究已经记录到语言之间的 token 差异可能高达数量级,这导致非英语用户为相同服务支付更高费用,并且在推理时获得的上下文更少。

Tokka‑Bench

现在已有开源工具系统性地凸显这些不平等。其中一个项目是 Tokka‑Bench,它是一个基准,用于评估不同分词器在 100 种自然语言和 20 种编程语言上的表现,使用真实的多语言文本语料库。

Tokka‑Bench 不仅仅是计数 token——它还衡量:

  • 效率(每个 token 的字节数) – 分词器压缩文本的效果
  • 覆盖度(唯一 token 数) – 脚本或语言的表示程度
  • 子词肥度 – 每个语义单元需要多少 token
  • 单词拆分率

发现

  • 在低资源语言中,分词器往往需要 2×–3× 更多的 token 才能编码相同的语义内容,相较于英语。
  • 同一个想法在英语中可能只需一半的 token,而在波斯语、印地语或阿姆哈拉语中则需要更多。
  • 推理成本随 token 数量而增长,因此处理非英语内容的费用更高。
  • 在 token 消耗大的语言中,长文档会更快填满模型的上下文窗口,削弱模型对长输入的推理能力。
  • 某些分词器(例如针对特定语言优化的模型)在这些语言上具有更低的子词肥度和更好的覆盖度,而其他分词器在主流脚本之外的表现则较差。

现实世界的影响

每个模型都有有限的上下文窗口(例如,8 k、32 k、128 k 令牌)。如果一种语言会膨胀令牌数量:

  • 你的文档会更快填满窗口。
  • 模型在长对话中“看到”的历史更少。
  • 摘要和推理链会更早失效。

API 可能保持不变,但一旦令牌效率不同,所获得的可用智能就会因语言而异。

经济偏见

分词器优化的是频率和压缩,而不是公平或公正。由于频率反映了网络数据分布的不均衡,在不平等的数据上进行优化会产生不平等的基础设施。非英语用户常常会遇到:

  • 每个语义单元的推理成本更高
  • 上下文消耗更快
  • 有效推理能力更低
  • 在摘要、长篇问答等任务上的表现更差

这就是 经济偏见——微妙、普遍且仅靠输出过滤难以解决。

朝着更公平的 AI 系统

要构建更公平的 AI 系统,我们必须把分词视为结构性基础设施,而不是偶然的预处理。这需要:

  • 每种语言的 token 成本审计
  • 上下文效率基准测试
  • 平衡的分词器训练语料库
  • 有意的词汇分配
  • 公开的碎片化指标

偏见并不是从答案开始的。
它始于单词的第一次切分。

Tokka‑Bench 这样的项目为我们提供了衡量和解决这种隐藏偏见所需的工具。

0 浏览
Back to Blog

相关文章

阅读更多 »