[Paper] Harvest:用于规模扩展域集体通信的自适应光子交换调度

发布: (2026年2月10日 GMT+8 04:49)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.09188v1

概述

本文介绍了 Harvest,一个框架,能够自动生成用于芯片间硅光网络的重新配置调度,这些网络用于高性能集合通信(例如 AllReduce)。通过智能地决定 何时 以及 如何 重塑光学拓扑,Harvest 在考虑光路切换非平凡成本的同时,缩短了完成集合操作的总时间。

关键贡献

  • 动态调度合成 – 将光子重新配置的时序问题表述为动态规划(DP)优化,在重新配置延迟与降低拥塞和传播延迟之间取得平衡。
  • 拓扑感知子求解器 – 引入可复用的拓扑优化例程,为集体的给定步骤寻找最佳光学路径。
  • 递归加倍的闭式最优调度 – 推导出流行的 AllReduce 算法的解析解,消除对重量级求解器的需求。
  • 技术无关的参数化 – 模型将光子重新配置延迟作为输入,使 Harvest 可适用于广泛的硅光器件(如 MEMS、热光、电子光开关)。
  • 全面评估 – 在分组层面、流层面以及真实 GPU 硬件实验中,与静态互连和朴素的逐步重新配置基线相比,展示了约 30 % 的集体完成时间降低。

方法论

  1. 输入模型 – Harvest 接收 (a) 一个 固定 的集体通信调度(算法定义的发送/接收对序列)和 (b) 光子网络的物理约束(端口数量、交换机重新配置延迟、链路带宽)。
  2. 动态规划表述 – 将集体划分为 阶段。对于每个阶段,DP 决定是保持当前光学拓扑还是进行一次重新配置。决策的成本是以下之和:
    • 重新配置延迟(固定惩罚)
    • 拥塞成本(有多少消息共享同一链路)
    • 传播延迟(与距离相关的时延)
      DP 递归地选择通往最终阶段的最小成本路径,从而得到全局最优调度。
  3. 拓扑优化子问题 – 当选择重新配置时,Harvest 求解一个较小的图嵌入问题:将活跃的通信对映射到可用的光学交换机上,以最小化拥塞。该子求解器可以是简单的贪心启发式,也可以是精确的 ILP,取决于规模。
  4. 特例解析解 – 对于 Recursive Doubling AllReduce 模式,作者利用其规则的二叉树结构推导出一个闭式调度,该调度在 “密集” 与 “稀疏” 拓扑之间交替,在不运行 DP 的情况下即可实现最优。

整体流程为:集体调度 → DP →(可选)拓扑优化器 → 重新配置时间线

结果与发现

ScenarioBaselineHarvest (DP)Harvest (Analytic)Improvement
静态光子网格(no re‑config)1.00×
每一步都重新配置0.78×慢 22 %(由于开销)
Harvest DP(generic)0.73×0.73×比静态快约 27 %
Harvest Analytic(Recursive Doubling)0.71×0.71×比静态快约 29 %,匹配 DP 最优
  • 包级仿真(ns‑3)显示在 AllReduce、Broadcast 和 ReduceScatter 上的延迟降低。
  • 流级(SimGrid)实验证实这些收益在真实的流量突发和争用情况下仍然有效。
  • GPU 硬件仿真(NVIDIA RTX 6000)验证了理论收益能够转化为可测量的实际加速(≈ 每 8‑GPU AllReduce 加速 2–3 毫秒)。

关键要点是 部分 重新配置——仅在拥塞收益大于交换延迟时——能够提供最佳的权衡。

实际意义

  • 系统架构师 可以将 Harvest 插入分布式深度学习框架(如 NCCL、Horovod)的编译器或运行时中,自动在集合通信调用的同时发出光子重配置指令。
  • 数据中心设计者 获得了一个量化工具,用于决定光子交换机必须保证多少重配置延迟才具备价值;该模型可以指导硅光技术的选择(MEMS 与电光)。
  • 软件开发者 可以提供一个简易 API(set_collective_schedule(...)),将底层 DP 抽象化,使他们能够专注于算法改进,而不是低层网络调优。
  • 能效 —— 通过减少活跃光路数量并避免不必要的重配置,Harvest 能降低光子结构的整体功耗,这对 Exascale 系统是一个重要指标。

总之,Harvest 架起了硅光 理论 带宽与高性能集合通信 实际 需求之间的桥梁。

限制与未来工作

  • DP 的可扩展性 – 虽然 DP 是多项式时间的,但拓扑优化子问题在非常大的交换结构(> 1024 端口)时可能成为瓶颈。需要启发式的扩展策略。
  • 假设确定性调度 – Harvest 假设存在已知的、静态的集合通信调度;动态或自适应的集合通信(例如负载均衡的 AllReduce)将需要在线重新调度。
  • 硬件验证范围 – 实验仅限于单一 GPU 平台和模拟的光子交换机;在多节点光子集群上的更广泛验证仍在计划中。
  • 向异构流量的扩展 – 未来工作可以加入混合工作负载(集合通信 + 点对点),并探索两种流量类型的联合调度。

总体而言,Harvest 为实现光子互连在实际 HPC 与 AI 系统中真正的 自适应 开辟了有前景的研究方向。

作者

  • Mahir Rahman
  • Samuel Joseph
  • Nihar Kodkani
  • Behnaz Arzani
  • Vamsi Addanki

论文信息

  • arXiv ID: 2602.09188v1
  • 类别: cs.NI, cs.DC
  • 出版日期: 2026年2月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »