[Paper] 快速 Byte 潜在 Transformer

发布: 3天前 (2026年5月9日 GMT+8 01:35)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.08044v1

概述

Fast Byte Latent Transformer (BLT) 论文解决了字节级语言模型长期存在的瓶颈：一次生成一个字节的速度极慢。通过引入巧妙的训练技巧和投机解码策略，作者们提供了一系列模型，能够并行生成多个字节，同时保持与传统基于标记的 Transformer 相当的质量。这为实用的、无需词汇表的语言模型打开了大门，既快速又节省内存。

关键贡献

BLT‑Diffusion (BLT‑D)：一种新的训练目标，在常规的下一个字节预测基础上加入块级扩散损失，实现字节“补丁”的并行生成。
BLT Self‑Speculation (BLT‑S)：一种投机解码方案，轻量本地解码器在其正常窗口之外起草字节，然后通过一次完整模型的前向传递验证该草稿。
BLT Diffusion + Verification (BLT‑DV)：将基于扩散的并行生成与自回归验证步骤相结合，以获得更高的保真度。
内存‑带宽节省：三种变体在推理时相较基线 BLT 将估计的内存带宽使用降低超过 50 %。
全面的实证评估：证明速度提升并未以困惑度或下游任务性能为代价。

方法论

Baseline Byte Latent Transformer – 一个直接预测下一个字节的 Transformer，不使用任何子词分词器。
Diffusion Objective – 在训练期间，每个字节块都会被破坏（例如随机掩码），模型学习重建原始块。此辅助损失教会网络一次性“填充”整个块。
Parallel Decoding – 在推理时，模型首先执行一次扩散步骤，提出一个完整的字节块，然后可选地对其进行细化。由于整个块在一次前向传播中生成，生成序列所需的遍数大幅下降。
Speculative Decoding (BLT‑S) – 一个小型的“局部”解码器快速运行，超出当前块范围预测后续字节。完整的 BLT 模型随后通过一次验证遍历检查预测，剔除任何错误的字节。
Verification Layer (BLT‑DV) – 在基于扩散的生成之后，轻量级的自回归遍历对块进行验证，纠正错误，同时保留大部分速度优势。

整体流水线刻意设计为模块化：可以根据延迟与质量的权衡，替换任意一种加速技巧。

结果与发现

Model	Generation Speed (× over baseline)	Perplexity (on WikiText‑103)	Memory‑Bandwidth
BLT (baseline)	1.0×	12.3	1.0
BLT‑D	2.8×	12.5 (≈ +0.2)	0.48×
BLT‑S	2.2×	12.4 (≈ +0.1)	0.55×
BLT‑DV	2.5×	12.4 (≈ +0.1)	0.52×

速度：所有变体将每个 token 的前向传播次数降低了 2–3 倍，从而在许多交互式应用中实现实时生成。
质量：基于扩散的方法仅导致困惑度略有上升，而投机验证则恢复了大部分失去的保真度。
资源效率：测得的内存带宽（现代 GPU/TPU 的主要成本）下降超过一半，使这些模型对边缘设备或大规模服务具有吸引力。

实际影响

Vocabulary‑Free Deployment – 无需维护特定语言的分词器；同一模型可在不同语言和代码库之间部署。
Low‑Latency APIs – 需要即时文本补全的服务（例如 IDE 助手、聊天机器人）现在可以使用字节级模型，而不会出现通常的延迟。
Edge & Mobile – 降低的带宽需求和并行块生成非常适合内存带宽受限的设备，为在设备端实现语言理解提供了可能。
Simplified Pipeline – 通过消除子词分词，数据预处理流水线变得更简洁且不易出错，尤其针对混合脚本或噪声输入。
Future Model Scaling – 扩散目标与模型规模无关；更大的 BLT‑D 模型同样可以继承相同的速度优势，从而实现更快速的大规模语言模型。

限制与未来工作

块大小权衡 – 更大的扩散块可以提升速度，但如果省略验证步骤，可能会降低质量；找到最佳平衡点需要针对具体任务进行调优。
投机开销 – BLT‑S 中的本地解码器会增加额外的参数和训练复杂度；在单次前向传播已经很便宜的硬件上，其收益会减弱。
评估范围 – 实验主要聚焦于英文文本；多语言或代码生成场景可能会暴露出新的挑战（例如，不同脚本的字节级模式不同）。
理论理解 – 扩散损失对表征学习的影响在实验上表现出潜力，但尚未得到完整解释；更深入的分析可能有助于设计更好的目标函数。

作者建议探索自适应块大小、将扩散与注意力机制更紧密地结合，以及将该框架扩展到多模态字节流（例如原始音频或二进制文件）。

作者

Julie Kallini
Artidoro Pagnoni
Tomasz Limisiewicz
Gargi Ghosh
Luke Zettlemoyer
Christopher Potts
Xiaochuang Han
Srinivasan Iyer

论文信息

arXiv ID: 2605.08044v1
类别: cs.CL, cs.AI, cs.LG
出版时间: 2026年5月8日
PDF: 下载 PDF

[Paper] 快速 Byte 潜在 Transformer

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张

[Paper] Tool Calling 在语言模型中是线性可读且可引导的