[Paper] TACO:用于可扩展张量并行 LLM 训练的中间张量高效通信压缩

发布: (2026年4月27日 GMT+8 14:27)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.24088v1

概述

训练如今的大规模语言模型通常依赖 tensor‑parallelism (TP),它将大型权重矩阵划分到多块 GPU 上。虽然 TP 能扩展计算,但也迫使频繁交换巨大的中间张量,形成通信瓶颈。本文介绍 TACO ——一种轻量级、基于 FP8 的压缩框架,在不牺牲模型质量的前提下大幅削减 TP 流量,使得在 GPT‑style 和 Qwen 模型上的端到端训练速度提升最高可达 1.87× 更快的端到端训练.

关键贡献

  • 以 FP8 为中心的压缩流水线,结合数据驱动的 reshape 步骤和 自适应尺度‑Hadamard 变换 (ASHT),实现对中间张量的高保真量化。
  • 双尺度量化 (DSQ) 机制,在整个训练过程中保持数值稳定性,防止低精度方案常见的溢出/下溢。
  • 高度融合的压缩算子,将 reshape、缩放和量化合并为单个 GPU kernel,显著降低内存流量和 kernel 启动开销。
  • 无缝集成 现有的数据并行 (DP) 与流水线并行 (PP) 运行时,形成 3‑D 并行训练栈(DP × PP × TP),可直接嵌入主流框架(如 Megatron‑LM、DeepSpeed)。
  • 广泛的实证验证 在 GPT‑2/3 规模模型和 Qwen 系列上进行,显示在几乎无损的困惑度/准确率下,吞吐量提升最高可达 1.87×

方法论

  1. Reshaping & Distribution Awareness – 在压缩之前,每个中间张量会根据其经验值分布(通过一次短暂的校准运行学习得到)进行重新排列。这种“数据驱动的重塑”将大部分信号集中到更小的子空间,从而使后续的量化更为有效。

  2. Adaptive Scale‑Hadamard Transform (ASHT) – 对张量应用轻量级的正交变换(Hadamard),并使用在训练期间观察到的动态范围自适应的每张量缩放因子。该变换去相关化数据,进一步将分布收紧到零附近。

  3. FP8 Quantization + Dual‑Scale Quantization – 经过变换的张量被量化为 8 位浮点数(FP8)。DSQ 保留两个缩放因子(一个用于前向传播,一个用于反向传播),使得在同一压缩表示被复用时,梯度和激活仍能保持足够的精度。

  4. Fused Compression Kernel – 所有步骤(reshape → ASHT → scaling → FP8 cast)在单个 CUDA kernel 中实现,消除中间缓冲区,并使该 kernel 能够与 NCCL 通信并行运行。

  5. 3‑D Parallel Integration – TACO 的压缩/解压钩子替换现有 3‑D 并行训练器中 TP 层的默认 all‑reduce/all‑gather 调用,保持 DP 和 PP 逻辑不变。

结果与发现

模型GPU数量基准 TP 吞吐量TACO 吞吐量加速比最终准确率(PPL / BLEU)
GPT‑2‑1.5B641.02 TFLOP/s1.84 TFLOP/s1.80×≈ 未变化
GPT‑3‑6.7B1280.58 TFLOP/s1.09 TFLOP/s1.87×≈ 未变化
Qwen‑7B2560.42 TFLOP/s0.73 TFLOP/s1.74×≈ 未变化
  • 通信量 在 FP8 压缩后平均下降约 45 %。
  • 内核启动开销 由于融合算子减少约 30 %。
  • 训练稳定性 与全精度 TP 相当,损失曲线几乎完全重合。
  • 该方法在 解码器‑仅(GPT)和编码器‑解码器(Qwen)两种架构 上均有效,展示了广泛的适用性。

实际意义

  • 成本节约: 通过削减 GPU 之间的通信流量,云用户可以在相同的硬件预算下训练更大的模型,或更快完成训练周期,从而降低 GPU 小时费用。
  • 可扩展性: TACO 使得将模型并行(TP)扩展到超出常规的 64 GPU 上限成为可能,而不会遭遇网络瓶颈,这为在普通集群上实现真正的拍级别大语言模型打开了大门。
  • 框架采纳: 由于 TACO 以即插即用的方式实现了 TP 通信原语的替代,使用 Megatron‑LM、DeepSpeed 或 FairScale 的开发者只需极少的代码修改即可启用它。
  • 边缘到云的连续性: 同一套 FP8 量化流水线可以用于推理时的张量压缩(例如在多节点边缘集群上的模型并行推理),有望将延迟降低一半。
  • 硬件对齐: FP8 已在 NVIDIA Hopper 以及即将推出的 AMD GPU 上得到支持,因而 TACO 能够利用原生张量核心加速量化/反量化步骤,进一步提升性能。

限制与未来工作

  • 硬件依赖性: 当前实现假设使用支持快速 FP8 的 GPU;在较旧的硬件上会回退到模拟 FP8,从而削弱性能提升。
  • 校准开销: 数据驱动的重塑需要在训练开始时进行一次简短的校准阶段;虽然开销适中,但在完全动态的工作负载中可能需要实现自动化。
  • 超出 TP 的扩展: 本文聚焦于 TP 张量;将相同的压缩思路应用于 DP 梯度或 PP 激活仍是一个待解的问题。
  • 对极端规模的鲁棒性: 实验止步于 256 块 GPU;未来工作应验证在上千节点规模下的稳定性和加速效果,因为此时网络拓扑的影响会更加显著。

总体而言,TACO 为长期困扰张量并行 LLM 训练的通信瓶颈提供了务实且高影响力的解决方案,并为更具成本效益的大规模模型开发铺平了道路。

作者

  • Man Liu
  • Xingchen Liu
  • Xingjian Tian
  • Bing Lu
  • Shengkay Lyu
  • Shengquan Yin
  • Wenjing Huang
  • Zheng Wei
  • Hairui Zhao
  • Guangming Tan
  • Dingwen Tao

论文信息

  • arXiv ID: 2604.24088v1
  • 分类: cs.DC, cs.AI
  • 出版日期: 2026年4月27日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 递归多智能体系统

递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …