Tokenizers:生成式 AI 的基础构件

发布: (2026年2月4日 GMT+8 11:50)
3 min read
原文: Dev.to

Source: Dev.to

Originally written in 2023. Republished here.

什么是分词器?

分词器是将给定输入拆分为称为 tokens(标记) 的更小单元的算法,这些标记可以被生成式 AI 模型处理。标记可以是单词、字符、子词,甚至是像素,这取决于数据类型和粒度。

分词器的输出是一系列标记,每个标记由唯一的数值标识符(token ID)表示。这些 ID 作为输入喂入模型,或用于解码模型的输出。例如,文本分词器可能会把单词 “hello” 映射为 token ID 1234,把 “world” 映射为 token ID 5678。输入序列 [1234, 5678] 随后可以生成新的输出如 [7890, 4321],再使用相同的分词器将其解码回单词。

分词器是如何工作的?

字符级分词器

这些分词器将输入拆分为单个字符(字母、数字、标点、符号)。它们简单且灵活,但可能产生很长的标记序列,并且词汇表规模有限。

单词级分词器

这些分词器基于空格和标点将输入拆分为单词。它们直观且易于理解,但可能遇到词表外(OOV)标记和拼写错误。

子词级分词器

这些分词器将输入拆分为子词——捕捉常见前缀、后缀和词干的更小单元。子词分词器更高效且更稳健,能够处理 OOV 标记和罕见词,尽管有时会产生不自然的切分和歧义。

像素级分词器

这些分词器将图像拆分为像素,即视觉数据的最小单元。像素分词器直接且通用,但可能导致高维、噪声较大的输入表示。

为什么分词器对生成式 AI 很重要?

分词器使模型能够学习和生成多样、复杂的数据。它们的影响包括:

  • 数据表示 – 决定输入和输出的编码方式,影响模型能够捕获的信息和结构。
  • 数据处理 – 通过决定数据的处理和解码方式,影响计算和生成的速度与效率。
  • 数据质量 – 通过数据的拆分和映射方式,影响模型输出的准确性和多样性。

感谢阅读本文——祝你玩转生成式 AI! 🤖

Back to Blog

相关文章

阅读更多 »