Tokenizers:生成式 AI 的基础构件
Source: Dev.to
Originally written in 2023. Republished here.
什么是分词器?
分词器是将给定输入拆分为称为 tokens(标记) 的更小单元的算法,这些标记可以被生成式 AI 模型处理。标记可以是单词、字符、子词,甚至是像素,这取决于数据类型和粒度。
分词器的输出是一系列标记,每个标记由唯一的数值标识符(token ID)表示。这些 ID 作为输入喂入模型,或用于解码模型的输出。例如,文本分词器可能会把单词 “hello” 映射为 token ID 1234,把 “world” 映射为 token ID 5678。输入序列 [1234, 5678] 随后可以生成新的输出如 [7890, 4321],再使用相同的分词器将其解码回单词。
分词器是如何工作的?
字符级分词器
这些分词器将输入拆分为单个字符(字母、数字、标点、符号)。它们简单且灵活,但可能产生很长的标记序列,并且词汇表规模有限。
单词级分词器
这些分词器基于空格和标点将输入拆分为单词。它们直观且易于理解,但可能遇到词表外(OOV)标记和拼写错误。
子词级分词器
这些分词器将输入拆分为子词——捕捉常见前缀、后缀和词干的更小单元。子词分词器更高效且更稳健,能够处理 OOV 标记和罕见词,尽管有时会产生不自然的切分和歧义。
像素级分词器
这些分词器将图像拆分为像素,即视觉数据的最小单元。像素分词器直接且通用,但可能导致高维、噪声较大的输入表示。
为什么分词器对生成式 AI 很重要?
分词器使模型能够学习和生成多样、复杂的数据。它们的影响包括:
- 数据表示 – 决定输入和输出的编码方式,影响模型能够捕获的信息和结构。
- 数据处理 – 通过决定数据的处理和解码方式,影响计算和生成的速度与效率。
- 数据质量 – 通过数据的拆分和映射方式,影响模型输出的准确性和多样性。
感谢阅读本文——祝你玩转生成式 AI! 🤖