[Paper] Harvest：用于规模扩展域集体通信的自适应光子交换调度

发布: 3天前 (2026年2月10日 GMT+8 04:49)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.09188v1

概述

本文介绍了 Harvest，一个框架，能够自动生成用于芯片间硅光网络的重新配置调度，这些网络用于高性能集合通信（例如 AllReduce）。通过智能地决定何时以及如何重塑光学拓扑，Harvest 在考虑光路切换非平凡成本的同时，缩短了完成集合操作的总时间。

输入模型 – Harvest 接收 (a) 一个固定的集体通信调度（算法定义的发送/接收对序列）和 (b) 光子网络的物理约束（端口数量、交换机重新配置延迟、链路带宽）。
动态规划表述 – 将集体划分为阶段。对于每个阶段，DP 决定是保持当前光学拓扑还是进行一次重新配置。决策的成本是以下之和：
- 重新配置延迟（固定惩罚）
- 拥塞成本（有多少消息共享同一链路）
- 传播延迟（与距离相关的时延）
  DP 递归地选择通往最终阶段的最小成本路径，从而得到全局最优调度。
拓扑优化子问题 – 当选择重新配置时，Harvest 求解一个较小的图嵌入问题：将活跃的通信对映射到可用的光学交换机上，以最小化拥塞。该子求解器可以是简单的贪心启发式，也可以是精确的 ILP，取决于规模。
特例解析解 – 对于 Recursive Doubling AllReduce 模式，作者利用其规则的二叉树结构推导出一个闭式调度，该调度在 “密集” 与 “稀疏” 拓扑之间交替，在不运行 DP 的情况下即可实现最优。

整体流程为：集体调度 → DP →（可选）拓扑优化器 → 重新配置时间线。

Scenario	Baseline	Harvest (DP)	Harvest (Analytic)	Improvement
静态光子网格（no re‑config）	1.00×	–	–	–
每一步都重新配置	0.78×	–	–	慢 22 %（由于开销）
Harvest DP（generic）	0.73×	0.73×	–	比静态快约 27 %
Harvest Analytic（Recursive Doubling）	0.71×	–	0.71×	比静态快约 29 %，匹配 DP 最优

包级仿真（ns‑3）显示在 AllReduce、Broadcast 和 ReduceScatter 上的延迟降低。
流级（SimGrid）实验证实这些收益在真实的流量突发和争用情况下仍然有效。
GPU 硬件仿真（NVIDIA RTX 6000）验证了理论收益能够转化为可测量的实际加速（≈ 每 8‑GPU AllReduce 加速 2–3 毫秒）。

关键要点是部分重新配置——仅在拥塞收益大于交换延迟时——能够提供最佳的权衡。

系统架构师 可以将 Harvest 插入分布式深度学习框架（如 NCCL、Horovod）的编译器或运行时中，自动在集合通信调用的同时发出光子重配置指令。
数据中心设计者 获得了一个量化工具，用于决定光子交换机必须保证多少重配置延迟才具备价值；该模型可以指导硅光技术的选择（MEMS 与电光）。
软件开发者 可以提供一个简易 API（set_collective_schedule(...)），将底层 DP 抽象化，使他们能够专注于算法改进，而不是低层网络调优。
能效 —— 通过减少活跃光路数量并避免不必要的重配置，Harvest 能降低光子结构的整体功耗，这对 Exascale 系统是一个重要指标。

总之，Harvest 架起了硅光理论带宽与高性能集合通信实际需求之间的桥梁。

DP 的可扩展性 – 虽然 DP 是多项式时间的，但拓扑优化子问题在非常大的交换结构（> 1024 端口）时可能成为瓶颈。需要启发式的扩展策略。
假设确定性调度 – Harvest 假设存在已知的、静态的集合通信调度；动态或自适应的集合通信（例如负载均衡的 AllReduce）将需要在线重新调度。
硬件验证范围 – 实验仅限于单一 GPU 平台和模拟的光子交换机；在多节点光子集群上的更广泛验证仍在计划中。
向异构流量的扩展 – 未来工作可以加入混合工作负载（集合通信 + 点对点），并探索两种流量类型的联合调度。

总体而言，Harvest 为实现光子互连在实际 HPC 与 AI 系统中真正的 自适应 开辟了有前景的研究方向。