[Paper] CCL-Bench 1.0：基于追踪的LLM基础设施基准

发布: 3天前 (2026年5月8日 GMT+8 00:40)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.06544v1

概览

本文介绍了 CCL‑Bench 1.0，这是一套基于追踪的基准测试套件，旨在使大语言模型（LLM）基础设施的性能评估透明且可复现。通过捕获训练步骤的完整执行追踪——以及机器可读的工作负载描述和启动脚本，作者为开发者提供了所需的数据，以了解 why 特定的硬件‑软件组合表现快（或慢），而不仅仅是 what 头条数字。

关键贡献

基于追踪的基准格式：每个数据点捆绑一个执行追踪、一个 YAML “工作负载卡”，以及使用的精确启动脚本。
开放、社区可扩展的工具包：用于解析追踪并计算计算、内存和通信效率的细粒度指标的实用工具。
从汇总统计基准中无法提取的实证洞见，包括：
1. 更高的计算‑通信重叠实际上导致更长的步长时间，暴露出次优的并行性。
2. TPU 互连带宽升级在小/中等工作负载上带来的加速幅度远大于可比的 GPU 升级。
3. 在相同硬件上，不同训练框架的最佳调优配置之间存在高达 3 倍的性能差距。

方法论

工作负载选择 – 作者选择了一组具有代表性的 LLM 训练工作负载（模型规模、批量大小和 token 长度各不相同），这些工作负载在工业研究中很常见。
跟踪收集 – 对每一次运行，他们记录一个低开销的跟踪，记录 kernel 启动、内存分配以及设备间通信事件。
工作负载卡片（YAML） – 使用声明式描述捕获模型架构、超参数、硬件拓扑以及软件栈（框架版本、编译器标志、通信库）。
工具套件处理 – 开源的 CCL‑Bench 工具套件读取跟踪和卡片，然后计算每一步的指标，例如：
- 计算利用率（实际提供的 FLOPs 与理论峰值的百分比）
- 内存带宽使用率及争用
- 通信量、延迟以及与计算的重叠情况
对比实验 – 他们系统地一次只改变一个维度（例如互连带宽、框架、并行策略），其余条件保持不变，从而能够因果归因性能差异。

结果与发现

场景	观察	解释
更高的计算‑通信重叠	重叠 ↑ 但步长时间也 ↑	表明重叠是通过阻塞计算实现的（例如更小的微批），而非真正的并行执行。
双倍的互连带宽	TPU：约 30 % 步长时间减少；GPU：约 8 % 减少（小/中模型）	TPU 的网格式互连对这些工作负载更敏感于延迟；GPU 的瓶颈在其他地方（例如内存）。
框架调优	相同硬件、相同模型 → PyTorch 最佳配置比 JAX 最佳配置慢 3 倍	不同的默认并行启发式和内核库可以主导性能；“开箱即用”调优不足以用于生产。

这些发现表明，单一的“每步秒数”数字隐藏了很多细微差别。基于跟踪的方法让工程师能够精准定位是需要更多计算、更好的内存布局，还是更智能的通信调度。

Practical Implications

Informed hardware purchases – Companies can simulate the impact of a higher‑bandwidth TPU mesh vs. a GPU NVLink upgrade before committing capital.
Framework selection & tuning – The benchmark makes it clear that the “best” framework depends on the workload; teams can allocate engineering effort to the framework that yields the biggest ROI.
Automated performance regression testing – Because each benchmark entry is reproducible (trace + launch script), CI pipelines can detect when a software update (e.g., a new CUDA version) degrades a specific efficiency metric.
Better scheduling & parallelism strategies – By exposing when compute‑communication overlap is counter‑productive, developers can redesign data‑parallel or pipeline‑parallel schemes to truly hide latency.
Community‑driven benchmarking – The open format encourages contributions from other labs, leading to a richer, more diverse performance dataset that reflects real‑world production workloads.

Limitations & Future Work

Scope of workloads – 当前套件聚焦于少数 LLM 训练配置；推理工作负载、多模态模型以及超大规模集群尚未覆盖。
Trace overhead – 虽然轻量，但追踪基础设施会带来少量运行时惩罚，可能影响极其严格的延迟测量。
Hardware diversity – 实验仅限于少数 TPU 和 GPU 代际；新型加速器（如 Habana、Graphcore）需要专门的适配器。
Automation of metric interpretation – 未来版本可集成基于机器学习的异常检测，自动标记低效的重叠模式或次优的通信调度。

CCL‑Bench 1.0 为更科学、数据驱动的 LLM 基础设施评估铺平了道路——正是开发者将原始性能数字转化为可执行工程决策所需的工具。

作者

Eric Ding
Byungsoo Oh
Bhaskar Kataria
Kaiwen Guo
Jelena Gvero
Abhishek Vijaya Kumar
Arjun Devraj
Lindsey Bowen
Atharv Sonwane
Emaad Manzoor
Rachee Singh

论文信息

arXiv ID: 2605.06544v1
分类: cs.DC, cs.NI
出版日期: 2026年5月7日
PDF: 下载 PDF

[Paper] CCL-Bench 1.0：基于追踪的LLM基础设施基准

概览

关键贡献

方法论

结果与发现

Practical Implications

Limitations & Future Work

作者

论文信息

相关文章

[Paper] Cerebras Wafer-Scale Engine上的Stencil计算

[Paper] Tenstorrent Wormhole上的Stencil计算

[Paper] HexiSeq: 在异构硬件上实现 LLM 的长上下文训练

[论文] RcLLM：通过超前缀 KV 缓存加速生成式推荐