Tokenizers：生成式 AI 的基础构件

发布: 1天前 (2026年2月4日 GMT+8 11:50)

3 min read

Source: Dev.to

Originally written in 2023. Republished here.

什么是分词器？

分词器是将给定输入拆分为称为 tokens（标记） 的更小单元的算法，这些标记可以被生成式 AI 模型处理。标记可以是单词、字符、子词，甚至是像素，这取决于数据类型和粒度。

分词器的输出是一系列标记，每个标记由唯一的数值标识符（token ID）表示。这些 ID 作为输入喂入模型，或用于解码模型的输出。例如，文本分词器可能会把单词 “hello” 映射为 token ID 1234，把 “world” 映射为 token ID 5678。输入序列 [1234, 5678] 随后可以生成新的输出如 [7890, 4321]，再使用相同的分词器将其解码回单词。

分词器是如何工作的？

字符级分词器

这些分词器将输入拆分为单个字符（字母、数字、标点、符号）。它们简单且灵活，但可能产生很长的标记序列，并且词汇表规模有限。

单词级分词器

这些分词器基于空格和标点将输入拆分为单词。它们直观且易于理解，但可能遇到词表外（OOV）标记和拼写错误。

子词级分词器

这些分词器将输入拆分为子词——捕捉常见前缀、后缀和词干的更小单元。子词分词器更高效且更稳健，能够处理 OOV 标记和罕见词，尽管有时会产生不自然的切分和歧义。

像素级分词器

这些分词器将图像拆分为像素，即视觉数据的最小单元。像素分词器直接且通用，但可能导致高维、噪声较大的输入表示。

为什么分词器对生成式 AI 很重要？

分词器使模型能够学习和生成多样、复杂的数据。它们的影响包括：

数据表示 – 决定输入和输出的编码方式，影响模型能够捕获的信息和结构。
数据处理 – 通过决定数据的处理和解码方式，影响计算和生成的速度与效率。
数据质量 – 通过数据的拆分和映射方式，影响模型输出的准确性和多样性。

感谢阅读本文——祝你玩转生成式 AI！ 🤖

Tokenizers：生成式 AI 的基础构件

什么是分词器？

分词器是如何工作的？

字符级分词器

单词级分词器

子词级分词器

像素级分词器

为什么分词器对生成式 AI 很重要？

相关文章

负向提示的艺术（及其文本等价）：像定义你想要的那样，同样关键地定义你不想要的

OpenAI 在 Anthropic 推出其自有模型几分钟后发布新的 agentic coding 模型

Claude 正在走红——它能保持吗？

在足球最大周末前观看我们的新 Gemini 广告