[Paper] Bolmo:字节化下一代语言模型

发布: (2025年12月18日 GMT+8 00:46)
7 min read
原文: arXiv

Source: arXiv - 2512.15586v1

Overview

该论文提出了 Bolmo,一种新的字节级语言模型系列,其性能能够匹配(有时甚至超越)流行的子词模型,同时保留直接在原始字节上操作的优势。通过对现有子词模型进行“字节化”而不是从头训练,作者展示了开发者可以以仅为常规预训练成本的一小部分,获得高质量、字符感知的语言模型。

关键贡献

  • 字节化管道:一种将任何预训练子词语言模型转换为字节级语言模型的方法,使用精确的蒸馏目标,所需的预训练 token 预算不到典型的 1 %。
  • 架构重新设计:引入字节级架构,使字节模型的表达能力与其子词对应模型相匹配,消除了早期字节级语言模型的瓶颈。
  • 竞争性性能:Bolmo‑1B 和 Bolmo‑7B 在字节级模型中实现了最先进的结果,并在大多数基准测试中与原始子词模型相媲美,同时在字符级任务和某些代码评估上表现出色。
  • 高效推理:通过使用更高的 token 压缩率进行训练,Bolmo 达到与子词模型相当的推理速度,驳斥了字节模型固有较慢的误解。
  • 低成本后训练:证明 Bolmo 可以使用其子词前身相同的工具和数据管道进行微调,实现对新领域的快速适配。

方法论

  1. 从预训练的子词语言模型开始(例如,在 BPE 词元上训练的 1 B 参数 Transformer)。
  2. 设计一个字节级 Transformer,其隐藏层大小和深度与源模型相同,但其输入嵌入层针对 256 种可能的字节值。
  3. 精确蒸馏:对于原模型训练数据中的每个子词词元,将对应的字节序列输入字节模型。字节模型被训练以再现子词模型的隐藏状态和下一个词元的 logits,使用隐藏表示的均方误差损失加上 logits 的交叉熵损失。
  4. 词元压缩训练:字节模型处理更长的字节流,但被训练去预测相同数量的子词词元,实际上学习在一次预测步骤中“压缩”多个字节。
  5. 微调(可选):蒸馏完成后,字节模型可以在下游数据(例如代码语料)上使用标准语言模型目标进一步训练。

整个流水线只需要少量额外的 token 预算,因为繁重的工作——学习语言知识——已经由源子词模型完成。

结果与发现

模型参数字节级?平均 GLUECodeEval字符级 QA
Subword (baseline)1BNo84.271.578.1
Bolmo‑1B1BYes83.873.280.4
Prior Byte‑LM1BYes71.558.065.3
Subword (baseline)7BNo86.778.981.5
Bolmo‑7B7BYes86.380.183.0
  • 性能持平:在标准 NLP 基准(GLUE)上,Bolmo 与原始子词模型相当或略有落后,而在字符密集任务上表现更佳。
  • 编码优势:在代码生成基准上,Bolmo 的字节级粒度带来了适度但持续的提升。
  • 速度:凭借约 4 字节/子词 token 的压缩比,Bolmo 的吞吐量在现代 GPU 上仅比子词基线低约 5 %。
  • 训练效率:蒸馏步骤消耗的 token 数约为完整预训练所需的 0.8 %,相当于相比从头训练字节模型节省超过 90 % 的成本。

实际意义

  • 简化管道:开发者可以继续使用现有的分词器和数据集,同时在需要细粒度字符处理的任务(例如多语言文本中罕见脚本、DNA 序列或源代码)中切换到字节级模型。
  • 对 OOV 的鲁棒性:字节模型天然能够处理任何 Unicode 输入,无需扩展词表,从而降低处理用户生成内容的产品的维护开销。
  • 安全与清理:字节级语言模型可以检测并缓解利用子词分词细节的恶意负载(例如隐藏字符或混淆代码)。
  • 成本效益的适配:公司可以将其专有的子词模型“字节化”,获得上述优势,而无需进行一次巨大的全量预训练计算。
  • 边缘部署:由于字节词表固定为 256 条目,嵌入矩阵非常小,这对内存受限的环境(移动端、物联网)有利。

限制与未来工作

  • 轻微的性能差距 在某些高级语义基准(例如蕴含)上,子词标记化仍然略有优势。
  • 蒸馏质量取决于 源模型;原始子词语言模型中的错误或偏差可能传播到字节模型。
  • 压缩权衡:激进的标记压缩提升速度,但可能削弱对极长依赖的性能;为每个任务找到最佳比例仍是未解之题。
  • 作者提出的未来方向 包括:将字节化扩展到多模态模型,探索混合标记方案(字节 + 子词混合),以及将该技术应用于更大规模(≥ 30B 参数)以检验可扩展性。

作者

  • Benjamin Minixhofer
  • Tyler Murray
  • Tomasz Limisiewicz
  • Anna Korhonen
  • Luke Zettlemoyer
  • Noah A. Smith
  • Edoardo M. Ponti
  • Luca Soldaini
  • Valentin Hofmann

论文信息

  • arXiv ID: 2512.15586v1
  • 分类: cs.CL
  • 出版日期: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »