[Paper] TACO：用于可扩展张量并行 LLM 训练的中间张量高效通信压缩

发布: 2天前 (2026年4月27日 GMT+8 14:27)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.24088v1

概述

训练如今的大规模语言模型通常依赖 tensor‑parallelism (TP)，它将大型权重矩阵划分到多块 GPU 上。虽然 TP 能扩展计算，但也迫使频繁交换巨大的中间张量，形成通信瓶颈。本文介绍 TACO ——一种轻量级、基于 FP8 的压缩框架，在不牺牲模型质量的前提下大幅削减 TP 流量，使得在 GPT‑style 和 Qwen 模型上的端到端训练速度提升最高可达 1.87× 更快的端到端训练.

关键贡献

以 FP8 为中心的压缩流水线，结合数据驱动的 reshape 步骤和 自适应尺度‑Hadamard 变换 (ASHT)，实现对中间张量的高保真量化。
双尺度量化 (DSQ) 机制，在整个训练过程中保持数值稳定性，防止低精度方案常见的溢出/下溢。
高度融合的压缩算子，将 reshape、缩放和量化合并为单个 GPU kernel，显著降低内存流量和 kernel 启动开销。
无缝集成 现有的数据并行 (DP) 与流水线并行 (PP) 运行时，形成 3‑D 并行训练栈（DP × PP × TP），可直接嵌入主流框架（如 Megatron‑LM、DeepSpeed）。
广泛的实证验证 在 GPT‑2/3 规模模型和 Qwen 系列上进行，显示在几乎无损的困惑度/准确率下，吞吐量提升最高可达 1.87×。

方法论

Reshaping & Distribution Awareness – 在压缩之前，每个中间张量会根据其经验值分布（通过一次短暂的校准运行学习得到）进行重新排列。这种“数据驱动的重塑”将大部分信号集中到更小的子空间，从而使后续的量化更为有效。
Adaptive Scale‑Hadamard Transform (ASHT) – 对张量应用轻量级的正交变换（Hadamard），并使用在训练期间观察到的动态范围自适应的每张量缩放因子。该变换去相关化数据，进一步将分布收紧到零附近。
FP8 Quantization + Dual‑Scale Quantization – 经过变换的张量被量化为 8 位浮点数（FP8）。DSQ 保留两个缩放因子（一个用于前向传播，一个用于反向传播），使得在同一压缩表示被复用时，梯度和激活仍能保持足够的精度。
Fused Compression Kernel – 所有步骤（reshape → ASHT → scaling → FP8 cast）在单个 CUDA kernel 中实现，消除中间缓冲区，并使该 kernel 能够与 NCCL 通信并行运行。
3‑D Parallel Integration – TACO 的压缩/解压钩子替换现有 3‑D 并行训练器中 TP 层的默认 all‑reduce/all‑gather 调用，保持 DP 和 PP 逻辑不变。

结果与发现

模型	GPU数量	基准 TP 吞吐量	TACO 吞吐量	加速比	最终准确率（PPL / BLEU）
GPT‑2‑1.5B	64	1.02 TFLOP/s	1.84 TFLOP/s	1.80×	≈ 未变化
GPT‑3‑6.7B	128	0.58 TFLOP/s	1.09 TFLOP/s	1.87×	≈ 未变化
Qwen‑7B	256	0.42 TFLOP/s	0.73 TFLOP/s	1.74×	≈ 未变化

通信量 在 FP8 压缩后平均下降约 45 %。
内核启动开销 由于融合算子减少约 30 %。
训练稳定性 与全精度 TP 相当，损失曲线几乎完全重合。
该方法在 解码器‑仅（GPT）和编码器‑解码器（Qwen）两种架构 上均有效，展示了广泛的适用性。

实际意义

成本节约: 通过削减 GPU 之间的通信流量，云用户可以在相同的硬件预算下训练更大的模型，或更快完成训练周期，从而降低 GPU 小时费用。
可扩展性: TACO 使得将模型并行（TP）扩展到超出常规的 64 GPU 上限成为可能，而不会遭遇网络瓶颈，这为在普通集群上实现真正的拍级别大语言模型打开了大门。
框架采纳: 由于 TACO 以即插即用的方式实现了 TP 通信原语的替代，使用 Megatron‑LM、DeepSpeed 或 FairScale 的开发者只需极少的代码修改即可启用它。
边缘到云的连续性: 同一套 FP8 量化流水线可以用于推理时的张量压缩（例如在多节点边缘集群上的模型并行推理），有望将延迟降低一半。
硬件对齐: FP8 已在 NVIDIA Hopper 以及即将推出的 AMD GPU 上得到支持，因而 TACO 能够利用原生张量核心加速量化/反量化步骤，进一步提升性能。

限制与未来工作

硬件依赖性: 当前实现假设使用支持快速 FP8 的 GPU；在较旧的硬件上会回退到模拟 FP8，从而削弱性能提升。
校准开销: 数据驱动的重塑需要在训练开始时进行一次简短的校准阶段；虽然开销适中，但在完全动态的工作负载中可能需要实现自动化。
超出 TP 的扩展: 本文聚焦于 TP 张量；将相同的压缩思路应用于 DP 梯度或 PP 激活仍是一个待解的问题。
对极端规模的鲁棒性: 实验止步于 256 块 GPU；未来工作应验证在上千节点规模下的稳定性和加速效果，因为此时网络拓扑的影响会更加显著。

总体而言，TACO 为长期困扰张量并行 LLM 训练的通信瓶颈提供了务实且高影响力的解决方案，并为更具成本效益的大规模模型开发铺平了道路。

作者

Man Liu
Xingchen Liu
Xingjian Tian
Bing Lu
Shengkay Lyu
Shengquan Yin
Wenjing Huang
Zheng Wei
Hairui Zhao
Guangming Tan
Dingwen Tao

论文信息

arXiv ID: 2604.24088v1
分类: cs.DC, cs.AI
出版日期: 2026年4月27日
PDF: Download PDF

[Paper] TACO：用于可扩展张量并行 LLM 训练的中间张量高效通信压缩

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 递归多智能体系统

[Paper] 模型应多快投入监督？在 Tsallis 损失连续体上训练推理模型

[论文] Teacher Forcing 作为广义贝叶斯：混沌动力学中切换代理的优化几何不匹配

[Paper] 面向自然语言语义的函数式几何代数