[Paper] 这是什么语言?问问你的 Tokenizer
Source: arXiv - 2602.17655v1
概述
语言识别(LID)是许多多语言 NLP 流程的第一步,但现有工具在面对低资源语言或密切相关的方言时常常失效。论文 “What Language is This? Ask Your Tokenizer” 提出了 UniLID,一种轻量级 LID 系统,复用大型语言模型已经使用的分词器。通过将词元分割视为语言特定的,同时共享通用词表,UniLID 在极少的数据和计算资源下仍能实现强劲的准确率,成为开发多语言应用的实用即插即用方案。
关键贡献
- Token‑centric LID: 引入一种新颖的 LID 方法,在共享的 tokenizer 词汇表上学习语言条件的 unigram 概率。
- Data‑efficient training: 只需每种语言少至五个标注示例即可实现 >70 % 的准确率,显著降低标注成本。
- Incremental language addition: 由于模块化的 unigram‑distribution 设计,新增语言无需重新训练整个模型。
- Competitive benchmark performance: 在标准 LID 数据集上匹配或超越已有基线(fastText、GlotLID、CLD3)。
- Fine‑grained dialect detection: 在区分密切相关的方言方面取得大幅提升,弥补了现有系统的已知弱点。
方法论
UniLID 基于 UnigramLM 分词算法构建,该算法将文本建模为从词汇表中独立抽取的 token 序列。作者从两个方面扩展了这一思路:
- 语言条件化的 unigram 分布 – 为每种语言学习一个在共享 token 集上独立的概率分布。
- 语言特定的分词 – 在推理时,分词器可以根据语言假设对同一原始字符串进行不同的切分,以反映现实中的正字法差异(例如,不同的词界约定)。
训练过程通过最大化每种语言少量标注句子的似然来进行,由于只需更新 unigram 计数,计算成本很低。推理时,模型计算在每种语言分布下观察到的分词的似然,并选择得分最高的语言。由于词汇表是共享的,系统可以直接嵌入任何现有的 LLM 分词流水线,无需额外的预处理。
Results & Findings
| Setting | Baseline (fastText) | UniLID | Relative Gain |
|---|---|---|---|
| 标准语言识别基准(高资源) | 98.3 % | 97.9 % | –0.4 % |
| 低资源(每种语言5个标注样本) | 58 % | 71 % | +13 % |
| 方言识别(例如阿拉伯方言) | 62 % | 78 % | +16 % |
- 样本效率:仅使用每种语言五个标注句子,UniLID 已经超过 70 % 的准确率,而 fastText 约为 58 %。
- 可扩展性:添加新语言只需更新其 unigram 分布;整体模型大小保持不变。
- 速度:推理对分词步骤几乎没有额外开销(≈ 1–2 ms 每句,CPU 上)。
这些结果表明,UniLID 不仅在学术上有趣——它在数据稀缺或语言高度相关的场景下提供了显著的性能提升。
实际影响
- 即插即用的多语言流水线:开发者可以用 UniLID 替换现有的语言识别组件,立即受益于更好的低资源语言处理,而无需重新设计分词器。
- 成本效益高的数据收集:团队只需少量标注示例即可快速启动语言支持,加速产品向新市场的推出。
- 改进的内容审核与路由:准确的方言检测有助于将用户生成的内容分配到合适的语言特定审核模型或翻译服务。
- 增量语言扩展:SaaS 平台可以随时推出对新兴语言或地区变体的支持,而无需更改核心模型。
限制与未来工作
- 依赖共享分词器: UniLID 的性能取决于底层分词器的质量;设计不佳的词表可能限制辨别能力。
- 单元假设: 将标记独立建模会忽略上下文线索,这些线索本可进一步提升准确率,尤其是在高度歧义的文字上。
- 评估范围: 论文聚焦于精选的语言和方言集合;更广泛的真实场景测试(例如噪声社交媒体文本)仍有待探索。
未来的研究方向包括将框架扩展到 子词或字符级 n‑gram 模型、整合轻量级上下文信号,以及在生产规模的多语言系统中对 UniLID 进行基准测试。
作者
- Clara Meister
- Ahmetcan Yavuz
- Pietro Lesci
- Tiago Pimentel
论文信息
- arXiv ID: 2602.17655v1
- 分类: cs.CL
- 出版日期: 2026年2月19日
- PDF: 下载 PDF