[论文] DASH：确定性注意力调度用于高吞吐可复现的 LLM 训练

发布: 1周前 (2026年1月29日 GMT+8 23:10)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.21824v1

概览

在大规模训练大型语言模型（LLM）时，需要可复现的结果，但确定性注意力内核——尤其是反向传播阶段——相比更快的非确定性实现，吞吐量可能下降高达 38 %。本文提出了 DASH（Deterministic Attention Scheduling for High‑throughput），一套调度技巧，重新组织确定性反向传播中的计算与梯度归约步骤，能够在保持完全数值可复现性的前提下，恢复最高 1.28× 的性能损失。

关键贡献

形式化 DAG 模型： 将确定性注意力的反向传播视为有向无环图调度问题，从而系统分析流水线停顿。
两种调度策略：
1. 降序 Q‑Tile 迭代 – 逆向查询块遍历，减少因果注意力中的空闲时间。
2. Shift 调度 – 在 DAG 模型内可证明最优的调度方案，最小化全掩码和因果掩码下的停顿。
实证验证： 在 NVIDIA H800 GPU 上对多种 LLM 大小实现最高 1.28× 加速，缩小确定性与非确定性之间的差距。
开源实现： 已发布代码库（https://github.com/SJTU-Liquid/deterministic-FA3），便于与现有 FlashAttention‑3 流水线集成。

方法论

反向传播分解： 作者将确定性注意力拆分为三个阶段——查询/键/值 (QKV) 矩阵乘、注意力分数计算和梯度归约——并将数据依赖映射到有向无环图（DAG）上。
关键路径分析： 通过测量最长的依赖链，他们识别出管线停滞的地方（主要发生在串行的梯度归约阶段）。
调度设计：
- 递减 Q‑Tile 迭代 从最后一个查询块到第一个查询块依次处理，使得较早的块在后续块仍在计算时就开始归约，从而实现工作重叠。
- 移位调度 在计算步骤和归约步骤之间引入系统性的偏移（即“移位”），使两者对齐，确保每个 GPU SM（流式多处理器）在整个反向传播过程中保持忙碌。
实现： 两种策略均集成到现有的 FlashAttention‑3 内核栈中，代码改动最小，保持相同的内存布局和数值保证。

结果与发现

Configuration	Baseline (deterministic FA3)	DASH (best schedule)	Speed‑up
Full‑mask, 70B model, H800	1.00×（参考）	1.22×	+22 %
Causal‑mask, 13B model, H800	1.00×	1.28×	+28 %
Mixed‑precision, 30B model	1.00×	1.15×	+15 %

Throughput gap（吞吐量差距）在确定性和非确定性注意力之间从约 38 % 缩小到大多数测试场景下低于 20 %。
Memory overhead（内存开销）保持不变；调度仅重新排列了已有的操作。
Numerical reproducibility（数值可复现性）完全保留——相较于原始确定性实现，梯度在位级上完全相同。

实际影响

更快的可复现训练流水线: 需要精确可复现性的团队（例如，为了合规监管、科学基准测试或调试）现在可以采用确定性注意力，而无需承担全部性能损失。
降低硬件成本: 恢复约30 %的吞吐量直接转化为大规模 LLM 预训练所需的 GPU‑hours 减少，从而削减云费用。
即插即用的集成: 由于 DASH 基于 FlashAttention‑3 构建，开发者只需一次库更新即可替换为新内核，保持现有模型代码和优化器逻辑不变。
支持更积极的检查点策略: 更快的反向传播释放时间用于额外的可复现检查点或梯度累积步骤，提高大模型的训练稳定性。

限制与未来工作

GPU 特定调优： 当前评估针对 NVIDIA H800；在其他架构（如 AMD Instinct、即将推出的 Hopper GPU）上的性能提升仍需量化。
掩码类型覆盖： 虽然已处理全掩码和因果掩码，但异构注意力掩码（例如块稀疏或基于旋转位置的掩码）可能需要自定义调度扩展。
理论最优界限： Shift Scheduling 在 DAG 抽象范围内是最优的；但实际因素如内存带宽争用仍可能留下进一步改进的空间。
未来方向： 将 DAG 模型扩展到多节点分布式训练，基于运行时分析探索自适应调度选择，并与其他确定性内核（如优化器更新）集成。

作者

Xinwei Qiang
Hongmin Chen
Shixuan Sun
Jingwen Leng
Xin Liu
Minyi Guo

论文信息

arXiv ID: 2601.21824v1
分类: cs.LG, cs.DC
出版日期: 2026年1月29日
PDF: 下载 PDF

[论文] DASH：确定性注意力调度用于高吞吐可复现的 LLM 训练

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈