[Paper] Bolmo:字节化下一代语言模型
发布: (2025年12月18日 GMT+8 00:46)
7 min read
原文: arXiv
Source: arXiv - 2512.15586v1
Overview
该论文提出了 Bolmo,一种新的字节级语言模型系列,其性能能够匹配(有时甚至超越)流行的子词模型,同时保留直接在原始字节上操作的优势。通过对现有子词模型进行“字节化”而不是从头训练,作者展示了开发者可以以仅为常规预训练成本的一小部分,获得高质量、字符感知的语言模型。
关键贡献
- 字节化管道:一种将任何预训练子词语言模型转换为字节级语言模型的方法,使用精确的蒸馏目标,所需的预训练 token 预算不到典型的 1 %。
- 架构重新设计:引入字节级架构,使字节模型的表达能力与其子词对应模型相匹配,消除了早期字节级语言模型的瓶颈。
- 竞争性性能:Bolmo‑1B 和 Bolmo‑7B 在字节级模型中实现了最先进的结果,并在大多数基准测试中与原始子词模型相媲美,同时在字符级任务和某些代码评估上表现出色。
- 高效推理:通过使用更高的 token 压缩率进行训练,Bolmo 达到与子词模型相当的推理速度,驳斥了字节模型固有较慢的误解。
- 低成本后训练:证明 Bolmo 可以使用其子词前身相同的工具和数据管道进行微调,实现对新领域的快速适配。
方法论
- 从预训练的子词语言模型开始(例如,在 BPE 词元上训练的 1 B 参数 Transformer)。
- 设计一个字节级 Transformer,其隐藏层大小和深度与源模型相同,但其输入嵌入层针对 256 种可能的字节值。
- 精确蒸馏:对于原模型训练数据中的每个子词词元,将对应的字节序列输入字节模型。字节模型被训练以再现子词模型的隐藏状态和下一个词元的 logits,使用隐藏表示的均方误差损失加上 logits 的交叉熵损失。
- 词元压缩训练:字节模型处理更长的字节流,但被训练去预测相同数量的子词词元,实际上学习在一次预测步骤中“压缩”多个字节。
- 微调(可选):蒸馏完成后,字节模型可以在下游数据(例如代码语料)上使用标准语言模型目标进一步训练。
整个流水线只需要少量额外的 token 预算,因为繁重的工作——学习语言知识——已经由源子词模型完成。
结果与发现
| 模型 | 参数 | 字节级? | 平均 GLUE | CodeEval | 字符级 QA |
|---|---|---|---|---|---|
| Subword (baseline) | 1B | No | 84.2 | 71.5 | 78.1 |
| Bolmo‑1B | 1B | Yes | 83.8 | 73.2 | 80.4 |
| Prior Byte‑LM | 1B | Yes | 71.5 | 58.0 | 65.3 |
| Subword (baseline) | 7B | No | 86.7 | 78.9 | 81.5 |
| Bolmo‑7B | 7B | Yes | 86.3 | 80.1 | 83.0 |
- 性能持平:在标准 NLP 基准(GLUE)上,Bolmo 与原始子词模型相当或略有落后,而在字符密集任务上表现更佳。
- 编码优势:在代码生成基准上,Bolmo 的字节级粒度带来了适度但持续的提升。
- 速度:凭借约 4 字节/子词 token 的压缩比,Bolmo 的吞吐量在现代 GPU 上仅比子词基线低约 5 %。
- 训练效率:蒸馏步骤消耗的 token 数约为完整预训练所需的 0.8 %,相当于相比从头训练字节模型节省超过 90 % 的成本。
实际意义
- 简化管道:开发者可以继续使用现有的分词器和数据集,同时在需要细粒度字符处理的任务(例如多语言文本中罕见脚本、DNA 序列或源代码)中切换到字节级模型。
- 对 OOV 的鲁棒性:字节模型天然能够处理任何 Unicode 输入,无需扩展词表,从而降低处理用户生成内容的产品的维护开销。
- 安全与清理:字节级语言模型可以检测并缓解利用子词分词细节的恶意负载(例如隐藏字符或混淆代码)。
- 成本效益的适配:公司可以将其专有的子词模型“字节化”,获得上述优势,而无需进行一次巨大的全量预训练计算。
- 边缘部署:由于字节词表固定为 256 条目,嵌入矩阵非常小,这对内存受限的环境(移动端、物联网)有利。
限制与未来工作
- 轻微的性能差距 在某些高级语义基准(例如蕴含)上,子词标记化仍然略有优势。
- 蒸馏质量取决于 源模型;原始子词语言模型中的错误或偏差可能传播到字节模型。
- 压缩权衡:激进的标记压缩提升速度,但可能削弱对极长依赖的性能;为每个任务找到最佳比例仍是未解之题。
- 作者提出的未来方向 包括:将字节化扩展到多模态模型,探索混合标记方案(字节 + 子词混合),以及将该技术应用于更大规模(≥ 30B 参数)以检验可扩展性。
作者
- Benjamin Minixhofer
- Tyler Murray
- Tomasz Limisiewicz
- Anna Korhonen
- Luke Zettlemoyer
- Noah A. Smith
- Edoardo M. Ponti
- Luca Soldaini
- Valentin Hofmann
论文信息
- arXiv ID: 2512.15586v1
- 分类: cs.CL
- 出版日期: 2025年12月17日
- PDF: 下载 PDF