[Paper] CCL-Bench 1.0:基于追踪的LLM基础设施基准

发布: (2026年5月8日 GMT+8 00:40)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.06544v1

概览

本文介绍了 CCL‑Bench 1.0,这是一套基于追踪的基准测试套件,旨在使大语言模型(LLM)基础设施的性能评估透明且可复现。通过捕获训练步骤的完整执行追踪——以及机器可读的工作负载描述和启动脚本,作者为开发者提供了所需的数据,以了解 why 特定的硬件‑软件组合表现快(或慢),而不仅仅是 what 头条数字。

关键贡献

  • 基于追踪的基准格式:每个数据点捆绑一个执行追踪、一个 YAML “工作负载卡”,以及使用的精确启动脚本。
  • 开放、社区可扩展的工具包:用于解析追踪并计算计算、内存和通信效率的细粒度指标的实用工具。
  • 从汇总统计基准中无法提取的实证洞见,包括:
    1. 更高的计算‑通信重叠实际上导致更长的步长时间,暴露出次优的并行性。
    2. TPU 互连带宽升级在小/中等工作负载上带来的加速幅度远大于可比的 GPU 升级。
    3. 在相同硬件上,不同训练框架的最佳调优配置之间存在高达 3 倍的性能差距。

方法论

  1. 工作负载选择 – 作者选择了一组具有代表性的 LLM 训练工作负载(模型规模、批量大小和 token 长度各不相同),这些工作负载在工业研究中很常见。
  2. 跟踪收集 – 对每一次运行,他们记录一个低开销的跟踪,记录 kernel 启动、内存分配以及设备间通信事件。
  3. 工作负载卡片(YAML) – 使用声明式描述捕获模型架构、超参数、硬件拓扑以及软件栈(框架版本、编译器标志、通信库)。
  4. 工具套件处理 – 开源的 CCL‑Bench 工具套件读取跟踪和卡片,然后计算每一步的指标,例如:
    • 计算利用率(实际提供的 FLOPs 与理论峰值的百分比)
    • 内存带宽使用率及争用
    • 通信量、延迟以及与计算的重叠情况
  5. 对比实验 – 他们系统地一次只改变一个维度(例如互连带宽、框架、并行策略),其余条件保持不变,从而能够因果归因性能差异。

结果与发现

场景观察解释
更高的计算‑通信重叠重叠 ↑ 但步长时间也 ↑表明重叠是通过 阻塞 计算实现的(例如更小的微批),而非真正的并行执行。
双倍的互连带宽TPU:约 30 % 步长时间减少;GPU:约 8 % 减少(小/中模型)TPU 的网格式互连对这些工作负载更敏感于延迟;GPU 的瓶颈在其他地方(例如内存)。
框架调优相同硬件、相同模型 → PyTorch 最佳配置比 JAX 最佳配置慢 3 倍不同的默认并行启发式和内核库可以主导性能;“开箱即用”调优不足以用于生产。

这些发现表明,单一的“每步秒数”数字隐藏了很多细微差别。基于跟踪的方法让工程师能够精准定位是需要更多计算、更好的内存布局,还是更智能的通信调度。

Practical Implications

  • Informed hardware purchases – Companies can simulate the impact of a higher‑bandwidth TPU mesh vs. a GPU NVLink upgrade before committing capital.
  • Framework selection & tuning – The benchmark makes it clear that the “best” framework depends on the workload; teams can allocate engineering effort to the framework that yields the biggest ROI.
  • Automated performance regression testing – Because each benchmark entry is reproducible (trace + launch script), CI pipelines can detect when a software update (e.g., a new CUDA version) degrades a specific efficiency metric.
  • Better scheduling & parallelism strategies – By exposing when compute‑communication overlap is counter‑productive, developers can redesign data‑parallel or pipeline‑parallel schemes to truly hide latency.
  • Community‑driven benchmarking – The open format encourages contributions from other labs, leading to a richer, more diverse performance dataset that reflects real‑world production workloads.

Limitations & Future Work

  • Scope of workloads – 当前套件聚焦于少数 LLM 训练配置;推理工作负载、多模态模型以及超大规模集群尚未覆盖。
  • Trace overhead – 虽然轻量,但追踪基础设施会带来少量运行时惩罚,可能影响极其严格的延迟测量。
  • Hardware diversity – 实验仅限于少数 TPU 和 GPU 代际;新型加速器(如 Habana、Graphcore)需要专门的适配器。
  • Automation of metric interpretation – 未来版本可集成基于机器学习的异常检测,自动标记低效的重叠模式或次优的通信调度。

CCL‑Bench 1.0 为更科学、数据驱动的 LLM 基础设施评估铺平了道路——正是开发者将原始性能数字转化为可执行工程决策所需的工具。

作者

  • Eric Ding
  • Byungsoo Oh
  • Bhaskar Kataria
  • Kaiwen Guo
  • Jelena Gvero
  • Abhishek Vijaya Kumar
  • Arjun Devraj
  • Lindsey Bowen
  • Atharv Sonwane
  • Emaad Manzoor
  • Rachee Singh

论文信息

  • arXiv ID: 2605.06544v1
  • 分类: cs.DC, cs.NI
  • 出版日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »