[Paper] Bolmo：字节化下一代语言模型

发布: 1个月前 (2025年12月18日 GMT+8 00:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15586v1

Overview

该论文提出了 Bolmo，一种新的字节级语言模型系列，其性能能够匹配（有时甚至超越）流行的子词模型，同时保留直接在原始字节上操作的优势。通过对现有子词模型进行“字节化”而不是从头训练，作者展示了开发者可以以仅为常规预训练成本的一小部分，获得高质量、字符感知的语言模型。

字节化管道：一种将任何预训练子词语言模型转换为字节级语言模型的方法，使用精确的蒸馏目标，所需的预训练 token 预算不到典型的 1 %。
架构重新设计：引入字节级架构，使字节模型的表达能力与其子词对应模型相匹配，消除了早期字节级语言模型的瓶颈。
竞争性性能：Bolmo‑1B 和 Bolmo‑7B 在字节级模型中实现了最先进的结果，并在大多数基准测试中与原始子词模型相媲美，同时在字符级任务和某些代码评估上表现出色。
高效推理：通过使用更高的 token 压缩率进行训练，Bolmo 达到与子词模型相当的推理速度，驳斥了字节模型固有较慢的误解。
低成本后训练：证明 Bolmo 可以使用其子词前身相同的工具和数据管道进行微调，实现对新领域的快速适配。

从预训练的子词语言模型开始（例如，在 BPE 词元上训练的 1 B 参数 Transformer）。
设计一个字节级 Transformer，其隐藏层大小和深度与源模型相同，但其输入嵌入层针对 256 种可能的字节值。
精确蒸馏：对于原模型训练数据中的每个子词词元，将对应的字节序列输入字节模型。字节模型被训练以再现子词模型的隐藏状态和下一个词元的 logits，使用隐藏表示的均方误差损失加上 logits 的交叉熵损失。
词元压缩训练：字节模型处理更长的字节流，但被训练去预测相同数量的子词词元，实际上学习在一次预测步骤中“压缩”多个字节。
微调（可选）：蒸馏完成后，字节模型可以在下游数据（例如代码语料）上使用标准语言模型目标进一步训练。

整个流水线只需要少量额外的 token 预算，因为繁重的工作——学习语言知识——已经由源子词模型完成。

模型	参数	字节级?	平均 GLUE	CodeEval	字符级 QA
Subword (baseline)	1B	No	84.2	71.5	78.1
Bolmo‑1B	1B	Yes	83.8	73.2	80.4
Prior Byte‑LM	1B	Yes	71.5	58.0	65.3
Subword (baseline)	7B	No	86.7	78.9	81.5
Bolmo‑7B	7B	Yes	86.3	80.1	83.0

轻微的性能差距 在某些高级语义基准（例如蕴含）上，子词标记化仍然略有优势。
蒸馏质量取决于 源模型；原始子词语言模型中的错误或偏差可能传播到字节模型。
压缩权衡：激进的标记压缩提升速度，但可能削弱对极长依赖的性能；为每个任务找到最佳比例仍是未解之题。
作者提出的未来方向 包括：将字节化扩展到多模态模型，探索混合标记方案（字节 + 子词混合），以及将该技术应用于更大规模（≥ 30B 参数）以检验可扩展性。