[Paper] 你会完成那个吗？对 Tokenization 边界问题的实用研究

发布: 1周前 (2026年1月31日 GMT+8 01:47)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.23223v1

概览

语言模型按 token 逐个生成文本，但用户输入的是普通字符。当提示在 token 中间 截止时，模型的下一个 token 分布可能会变得极度不准确——这种现象被称为 partial token problem（部分 token 问题）。本文揭示了这种不匹配在真实输入中（尤其是中文、强复合语言以及源代码）出现的频率，并量化了它对最先进模型的影响。

关键贡献

对三类高风险领域（非空格语言、复合词语言和编程代码）进行的令牌‑词不匹配的实证调查。
构建自然的“部分‑令牌”提示，模拟开发者和终端用户的实际输入方式，而不是使用合成的字符前缀。
大规模评估显示，当前沿语言模型在提示与令牌不匹配时，对正确续写的概率约为 ≈1,000× 更低，且该差距随模型规模的增大而持续——甚至扩大。
系统性评估推理时的修复方法，确认最近的精确分词技术（例如字节级回退、动态令牌重新分段）能够有效恢复丢失的概率质量。
为 API 提供商和下游开发者提供 可操作的指南，帮助在生产流水线中检测并缓解该问题。

方法论

Token‑Word Alignment Analysis – 作者使用相同的 BPE/WordPiece 词表对中文、德语、芬兰语以及多种编程语言的大型语料库进行分词。随后他们测量了落在 word 边界内部的 token 所占的比例。
Prompt Generation – 对每个领域，研究者收集自然出现的句子，然后在下一个 token 边界之前截断，确保生成的提示以一个未完整的 token 结尾（例如 “我想去北”，下一个 token 将是 “北京”）。
Probability Measurement – 使用参数规模从 1 B 到 175 B 的模型，他们计算了 ground‑truth 续写的条件概率，分别在两种情况下进行： (a) 原始的部分 token 提示； (b) “回退”版本，即对提示进行填充或重新分词，使其与 token 对齐。
Mitigation Experiments – 他们测试了三种推理时策略：(i) 贪婪的字符级回退； (ii) 在每次前向传播前对提示进行动态重新分词； (iii) 最近工作中提出的精确分词算法（例如 Exact Tokenizer）。
Statistical Analysis – 结果在不同领域、模型规模和提示长度上进行汇总，并报告置信区间以排除随机变异的影响。

结果与发现

领域	与标记不对齐的词边界比例	平均概率下降（部分 vs. 对齐）
中文	~25 %	10⁻³（≈3 个数量级）
德语（复合词）	~12 %	10⁻²
芬兰语（复合词）	~9 %	10⁻²
Python 代码	~18 %	10⁻³

尺度不变性： 更大的模型（最高 175 B）未恢复失去的概率；在许多情况下差距略有扩大，暗示该问题是架构导致的，而非数据稀缺问题。
缓解成功： 精确分词回退恢复了 > 95 % 的原始概率，而简单的字符级回退仅恢复约 ~60 %。
用户可见影响： 在生成任务（例如代码补全）中，部分标记提示导致模型给出不相关的补全甚至语法错误，显著降低下游任务的准确性。

实际影响

API 提供商 应该提供 token‑alignment 检查（例如，一个布尔标志）或在将输入提示送入模型前自动重新分词。
IDE 和代码助手插件 可以在标识符不完整时预先用哨兵 token 填充，或在光标位于非空白字符之后时触发一次重新分词。
面向无空格语言（中文、日文、泰文）的多语言聊天机器人 需要加入字节级或字符级的回退机制，以避免悄然降级。
模型微调流水线 可以通过在训练数据中加入部分 token 示例来增强模型对这类输入的鲁棒性。
性能权衡： 精确的重新分词会带来适度的延迟开销（≈5‑10 ms 每次请求，在 GPU 上），相较于提供错误答案的代价，这通常是可以接受的。

限制与未来工作

该研究聚焦于 decoder‑only 语言模型；编码器‑解码器或检索增强模型可能表现出不同的敏感性。
只检查了少数几种分词器（BPE/WordPiece）；更新的子词方案（例如 Unigram、带字节回退的 SentencePiece）可能表现不同。
缓解实验仅限于推理时的修复；探索 training‑time 解决方案（例如 token‑boundary regularization）仍是一个未解之路。
未获取真实用户日志，因此只能推断而非测量生产环境中部分标记提示的实际频率。

底线：分词边界问题并非理论上的好奇心——它是任何将用户输入文本交给语言模型的服务的具体可靠性风险。通过采用推荐的推理时安全措施，开发者可以在无需等待下一代模型的情况下显著提升预测的忠实度。

作者

Hao Xu
Alisa Liu
Jonathan Hayase
Yejin Choi
Noah A. Smith

论文信息

arXiv ID: 2601.23223v1
分类: cs.CL
出版日期: 2026年1月30日
PDF: 下载 PDF

[Paper] 你会完成那个吗？对 Tokenization 边界问题的实用研究

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈

[Paper] PaperBanana：为 AI 科学家自动化学术插图

[Paper] 通用语言识别与生成

[Paper] 现在你听见我：针对大型音频语言模型的音频叙事攻击