[论文] DASH:确定性注意力调度用于高吞吐可复现的 LLM 训练

发布: (2026年1月29日 GMT+8 23:10)
6 分钟阅读
原文: arXiv

Source: arXiv - 2601.21824v1

概览

在大规模训练大型语言模型(LLM)时,需要可复现的结果,但确定性注意力内核——尤其是反向传播阶段——相比更快的非确定性实现,吞吐量可能下降高达 38 %。本文提出了 DASH(Deterministic Attention Scheduling for High‑throughput),一套调度技巧,重新组织确定性反向传播中的计算与梯度归约步骤,能够在保持完全数值可复现性的前提下,恢复最高 1.28× 的性能损失。

关键贡献

  • 形式化 DAG 模型: 将确定性注意力的反向传播视为有向无环图调度问题,从而系统分析流水线停顿。
  • 两种调度策略:
    1. 降序 Q‑Tile 迭代 – 逆向查询块遍历,减少因果注意力中的空闲时间。
    2. Shift 调度 – 在 DAG 模型内可证明最优的调度方案,最小化全掩码和因果掩码下的停顿。
  • 实证验证: 在 NVIDIA H800 GPU 上对多种 LLM 大小实现最高 1.28× 加速,缩小确定性与非确定性之间的差距。
  • 开源实现: 已发布代码库(https://github.com/SJTU-Liquid/deterministic-FA3),便于与现有 FlashAttention‑3 流水线集成。

方法论

  1. 反向传播分解: 作者将确定性注意力拆分为三个阶段——查询/键/值 (QKV) 矩阵乘注意力分数计算梯度归约——并将数据依赖映射到有向无环图(DAG)上。
  2. 关键路径分析: 通过测量最长的依赖链,他们识别出管线停滞的地方(主要发生在串行的梯度归约阶段)。
  3. 调度设计:
    • 递减 Q‑Tile 迭代 从最后一个查询块到第一个查询块依次处理,使得较早的块在后续块仍在计算时就开始归约,从而实现工作重叠。
    • 移位调度 在计算步骤和归约步骤之间引入系统性的偏移(即“移位”),使两者对齐,确保每个 GPU SM(流式多处理器)在整个反向传播过程中保持忙碌。
  4. 实现: 两种策略均集成到现有的 FlashAttention‑3 内核栈中,代码改动最小,保持相同的内存布局和数值保证。

结果与发现

ConfigurationBaseline (deterministic FA3)DASH (best schedule)Speed‑up
Full‑mask, 70B model, H8001.00×(参考)1.22×+22 %
Causal‑mask, 13B model, H8001.00×1.28×+28 %
Mixed‑precision, 30B model1.00×1.15×+15 %
  • Throughput gap(吞吐量差距)在确定性和非确定性注意力之间从约 38 % 缩小到大多数测试场景下低于 20 %。
  • Memory overhead(内存开销)保持不变;调度仅重新排列了已有的操作。
  • Numerical reproducibility(数值可复现性)完全保留——相较于原始确定性实现,梯度在位级上完全相同。

实际影响

  • 更快的可复现训练流水线: 需要精确可复现性的团队(例如,为了合规监管、科学基准测试或调试)现在可以采用确定性注意力,而无需承担全部性能损失。
  • 降低硬件成本: 恢复约30 %的吞吐量直接转化为大规模 LLM 预训练所需的 GPU‑hours 减少,从而削减云费用。
  • 即插即用的集成: 由于 DASH 基于 FlashAttention‑3 构建,开发者只需一次库更新即可替换为新内核,保持现有模型代码和优化器逻辑不变。
  • 支持更积极的检查点策略: 更快的反向传播释放时间用于额外的可复现检查点或梯度累积步骤,提高大模型的训练稳定性。

限制与未来工作

  • GPU 特定调优: 当前评估针对 NVIDIA H800;在其他架构(如 AMD Instinct、即将推出的 Hopper GPU)上的性能提升仍需量化。
  • 掩码类型覆盖: 虽然已处理全掩码和因果掩码,但异构注意力掩码(例如块稀疏或基于旋转位置的掩码)可能需要自定义调度扩展。
  • 理论最优界限: Shift Scheduling 在 DAG 抽象范围内是最优的;但实际因素如内存带宽争用仍可能留下进一步改进的空间。
  • 未来方向: 将 DAG 模型扩展到多节点分布式训练,基于运行时分析探索自适应调度选择,并与其他确定性内核(如优化器更新)集成。

作者

  • Xinwei Qiang
  • Hongmin Chen
  • Shixuan Sun
  • Jingwen Leng
  • Xin Liu
  • Minyi Guo

论文信息

  • arXiv ID: 2601.21824v1
  • 分类: cs.LG, cs.DC
  • 出版日期: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »