[Paper] 快速 Byte 潜在 Transformer

发布: (2026年5月9日 GMT+8 01:35)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.08044v1

概述

Fast Byte Latent Transformer (BLT) 论文解决了字节级语言模型长期存在的瓶颈:一次生成一个字节的速度极慢。通过引入巧妙的训练技巧和投机解码策略,作者们提供了一系列模型,能够并行生成多个字节,同时保持与传统基于标记的 Transformer 相当的质量。这为实用的、无需词汇表的语言模型打开了大门,既快速又节省内存。

关键贡献

  • BLT‑Diffusion (BLT‑D):一种新的训练目标,在常规的下一个字节预测基础上加入块级扩散损失,实现字节“补丁”的并行生成。
  • BLT Self‑Speculation (BLT‑S):一种投机解码方案,轻量本地解码器在其正常窗口之外起草字节,然后通过一次完整模型的前向传递验证该草稿。
  • BLT Diffusion + Verification (BLT‑DV):将基于扩散的并行生成与自回归验证步骤相结合,以获得更高的保真度。
  • 内存‑带宽节省:三种变体在推理时相较基线 BLT 将估计的内存带宽使用降低超过 50 %。
  • 全面的实证评估:证明速度提升并未以困惑度或下游任务性能为代价。

方法论

  1. Baseline Byte Latent Transformer – 一个直接预测下一个字节的 Transformer,不使用任何子词分词器。
  2. Diffusion Objective – 在训练期间,每个字节块都会被破坏(例如随机掩码),模型学习重建原始块。此辅助损失教会网络一次性“填充”整个块。
  3. Parallel Decoding – 在推理时,模型首先执行一次扩散步骤,提出一个完整的字节块,然后可选地对其进行细化。由于整个块在一次前向传播中生成,生成序列所需的遍数大幅下降。
  4. Speculative Decoding (BLT‑S) – 一个小型的“局部”解码器快速运行,超出当前块范围预测后续字节。完整的 BLT 模型随后通过一次验证遍历检查预测,剔除任何错误的字节。
  5. Verification Layer (BLT‑DV) – 在基于扩散的生成之后,轻量级的自回归遍历对块进行验证,纠正错误,同时保留大部分速度优势。

整体流水线刻意设计为模块化:可以根据延迟与质量的权衡,替换任意一种加速技巧。

结果与发现

ModelGeneration Speed (× over baseline)Perplexity (on WikiText‑103)Memory‑Bandwidth
BLT (baseline)1.0×12.31.0
BLT‑D2.8×12.5 (≈ +0.2)0.48×
BLT‑S2.2×12.4 (≈ +0.1)0.55×
BLT‑DV2.5×12.4 (≈ +0.1)0.52×
  • 速度:所有变体将每个 token 的前向传播次数降低了 2–3 倍,从而在许多交互式应用中实现实时生成。
  • 质量:基于扩散的方法仅导致困惑度略有上升,而投机验证则恢复了大部分失去的保真度。
  • 资源效率:测得的内存带宽(现代 GPU/TPU 的主要成本)下降超过一半,使这些模型对边缘设备或大规模服务具有吸引力。

实际影响

  • Vocabulary‑Free Deployment – 无需维护特定语言的分词器;同一模型可在不同语言和代码库之间部署。
  • Low‑Latency APIs – 需要即时文本补全的服务(例如 IDE 助手、聊天机器人)现在可以使用字节级模型,而不会出现通常的延迟。
  • Edge & Mobile – 降低的带宽需求和并行块生成非常适合内存带宽受限的设备,为在设备端实现语言理解提供了可能。
  • Simplified Pipeline – 通过消除子词分词,数据预处理流水线变得更简洁且不易出错,尤其针对混合脚本或噪声输入。
  • Future Model Scaling – 扩散目标与模型规模无关;更大的 BLT‑D 模型同样可以继承相同的速度优势,从而实现更快速的大规模语言模型。

限制与未来工作

  • 块大小权衡 – 更大的扩散块可以提升速度,但如果省略验证步骤,可能会降低质量;找到最佳平衡点需要针对具体任务进行调优。
  • 投机开销 – BLT‑S 中的本地解码器会增加额外的参数和训练复杂度;在单次前向传播已经很便宜的硬件上,其收益会减弱。
  • 评估范围 – 实验主要聚焦于英文文本;多语言或代码生成场景可能会暴露出新的挑战(例如,不同脚本的字节级模式不同)。
  • 理论理解 – 扩散损失对表征学习的影响在实验上表现出潜力,但尚未得到完整解释;更深入的分析可能有助于设计更好的目标函数。

作者建议探索自适应块大小、将扩散与注意力机制更紧密地结合,以及将该框架扩展到多模态字节流(例如原始音频或二进制文件)。

作者

  • Julie Kallini
  • Artidoro Pagnoni
  • Tomasz Limisiewicz
  • Gargi Ghosh
  • Luke Zettlemoyer
  • Christopher Potts
  • Xiaochuang Han
  • Srinivasan Iyer

论文信息

  • arXiv ID: 2605.08044v1
  • 类别: cs.CL, cs.AI, cs.LG
  • 出版时间: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »