[Paper] FOCUS:DLLMs 知道如何驯服它们的计算瓶颈
发布: (2026年1月31日 GMT+8 02:52)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.23278v1
概述
扩散大型语言模型(DLLMs)承诺比传统自回归 LLM 提供更高质量的文本生成,但其推理成本使其难以进入生产流水线。本文揭示了 DLLM 解码中的一个根本性低效,并引入 FOCUS,一个运行时系统,能够动态地将计算集中在实际需要解码的 token 上,实现高达 3.5× 更高的吞吐量,且不牺牲输出质量。
关键贡献
- 识别瓶颈: 表明在每个扩散步骤中,只有极小比例的 token 是可解码的,而其余 token 仍然占用 GPU 计算资源。
- 相关性洞察: 展示注意力衍生的 token 重要性分数与 token 在下一步被解码的概率之间存在强关联。
- FOCUS 推理引擎: 设计一种动态调度算法,聚焦 GPU 资源于可解码的 token,并在运行时驱逐其余 token,从而有效提升可用批量大小。
- 开源实现: 发布一个可用于生产的库(兼容 LMDeploy),可直接嵌入现有的 DLLM 服务堆栈。
- 实证验证: 在标准基准(如 WikiText、CommonGen)上实现最高 3.52× 的吞吐提升,同时保持或提升生成质量(BLEU、ROUGE 以及人工评估分数)。
方法论
- DLLM 解码分析: 作者对最先进的扩散大语言模型(LLM)进行仪器化,以测量扩散步骤中每个 token 的计算量。他们发现大多数 GPU 核心在处理尚未准备好进行采样的 token。
- 基于注意力的重要性度量: 通过提取模型内部层的注意力权重,作者为每个 token 推导出一个轻量级的“重要性分数”。分数更高的 token 在下一次扩散迭代中更有可能被解码。
- 动态 token 选择: FOCUS 维护一个按重要性排序的优先队列。每一步它会:
- 选择累计解码概率超过可配置阈值的前 k 个 token。
- 仅在这部分子集上执行扩散 kernel。
- 当被剔除的 token 再次符合条件时,将其重新注入队列。
- 批量大小扩展: 由于活跃 token 集合大幅缩小,同一块 GPU 能并行处理更多 有效 批次,从而提升整体吞吐量。
- 与 LMDeploy 的集成: 该系统包装了现有的推理引擎,仅需少量 API 更改,即可简化对现有服务的采用。
结果与发现
| 指标 | 基线 (LMDeploy) | FOCUS | 加速比 | 质量 Δ |
|---|---|---|---|---|
| Tokens/sec (WikiText) | 1,200 | 4,200 | 3.5× | ≈ 0% (BLEU) |
| Tokens/sec (CommonGen) | 950 | 3,300 | 3.5× | +0.3 BLEU |
| GPU 利用率 | 68 % | 92 % | — | — |
| 延迟 (90‑百分位) | 210 ms | 78 ms | — | — |
- 吞吐量: 在五个不同的生成任务中,FOCUS 始终实现了 2.8–3.5 倍更高的每秒 token 速率。
- 质量: 标准自动评估指标没有出现统计显著的下降;在两种情况下,质量甚至提升,可能是因为模型在“困难” token 上投入了更多计算。
- 可扩展性: 系统随 GPU 数量线性扩展,证明动态聚焦不会引入同步瓶颈。
实际影响
- 成本效益高的服务: 云提供商可以以当前计算预算的一小部分运行 DLLM,使基于扩散的生成对聊天机器人、代码助手和内容创作服务可行。
- 更高的请求并发性: 通过增加有效批量大小,API 可以在不增加硬件的情况下处理更多并发用户,降低流量高峰期间的延迟峰值。
- 节能: 集中计算可减少 GPU 周期的浪费,符合大规模 AI 部署的可持续发展目标。
- 即插即用的采用: 由于 FOCUS 作为 LMDeploy 的轻量包装构建,团队可以通过最少的代码更改进行集成,保留现有模型检查点和流水线。
- 启用新用例: 更快的 DLLM 推理为实时应用打开了大门(例如交互式故事讲述、设备端生成),这些应用以前需要较慢的自回归模型。
限制与未来工作
- 模型特定调优: 基于重要性的选择阈值目前是一个超参数,可能需要针对每个模型进行校准;尚未证明通用设置可行。
- 内存开销: 维护优先队列和 token 元数据会增加适度的内存占用,在内存受限的边缘设备上可能成为瓶颈。
- 对其他扩散架构的通用性: 本研究聚焦于特定类别的 DLLM;将 FOCUS 扩展到更新的扩散变体(例如文本的潜在扩散)仍是一个未解之题。
- 自适应调度研究: 未来工作可以探索基于强化学习的 token 选择,以进一步降低延迟并提升质量。
FOCUS 展示了智能运行时工程能够弥合前沿研究模型与实际生产约束之间的差距,使扩散 LLM 从好奇心转变为开发者的实用工具。
作者
- Kaihua Liang
- Xin Tan
- An Zhong
- Hong Xu
- Marco Canini
论文信息
- arXiv ID: 2601.23278v1
- 分类: cs.LG, cs.AR, cs.CL
- 出版日期: 2026年1月30日
- PDF: 下载 PDF