[Paper] Harvest: 적응형 포토닉 스위칭 스케줄을 이용한 스케일업 도메인에서의 집합 통신

발행: 3일 전 (2026년 2월 10일 오전 05:49 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.09188v1

Overview

이 논문은 Harvest라는 프레임워크를 소개합니다. Harvest는 고성능 집합 통신(예: AllReduce)에서 사용되는 칩‑투‑칩 실리콘‑포토닉 네트워크를 위한 재구성 스케줄을 자동으로 생성합니다. 광 토폴로지를 언제 그리고 어떻게 재구성할지를 지능적으로 결정함으로써, 포토닉 회로 전환에 드는 비정형적인 비용을 고려하면서 집합 연산을 완료하는 전체 시간을 크게 단축합니다.

주요 기여

Dynamic schedule synthesis – 광학 재구성 타이밍 문제를 동적 프로그래밍(DP) 최적화로 공식화하여 재구성 지연과 감소된 혼잡 및 전파 지연 사이의 균형을 맞춥니다.
Topology‑aware sub‑solver – 집합 연산의 특정 단계에 대해 최적의 광 경로를 찾는 재사용 가능한 토폴로지 최적화 루틴을 도입합니다.
Closed‑form optimal schedule for Recursive Doubling – 널리 사용되는 AllReduce 알고리즘에 대한 분석적 해를 도출하여 무거운 솔버의 필요성을 없앱니다.
Technology‑agnostic parameterization – 모델은 광학 재구성 지연을 입력으로 받아 Harvest를 다양한 실리콘 포토닉 장치(예: MEMS, 열광학, 전기광 스위치)에 적용 가능하게 합니다.
Comprehensive evaluation – 정적 인터커넥트 및 단순 단계별 재구성 기준과 비교하여 패킷 수준, 흐름 수준, 실제 GPU 하드웨어 실험에서 집합 연산 완료 시간이 최대 약 30 % 감소함을 보여줍니다.

Methodology

Input model – Harvest는 (a) 고정된 집합 통신 스케줄(알고리즘에 의해 정의된 송수신 쌍의 순서)과 (b) 광학 네트워크의 물리적 제약(포트 수, 스위치 재구성 지연, 링크 대역폭)을 입력으로 받는다.
Dynamic programming formulation – 집합 통신을 단계로 나눈다. 각 단계마다 DP는 현재 광학 토폴로지를 유지할지 재구성을 할지를 결정한다. 결정의 비용은 다음의 합이다:
- Re‑configuration delay (고정 페널티)
- Congestion cost (몇 개의 메시지가 동일한 링크를 공유하는지)
- Propagation delay (거리 의존 지연)
  DP는 최종 단계까지 가장 저렴한 경로를 재귀적으로 선택하여 전역 최적 스케줄을 산출한다.
Topology optimization subproblem – 재구성이 선택될 경우, Harvest는 작은 그래프 임베딩 문제를 해결한다: 활성화된 통신 쌍을 사용 가능한 광 스위치에 매핑하여 혼잡을 최소화한다. 이 서브 솔버는 규모에 따라 간단한 탐욕적 휴리스틱이 될 수도 있고 정확한 ILP가 될 수도 있다.
Special‑case analytic solution – Recursive Doubling AllReduce 패턴에 대해서는, 저자들이 그 규칙적인 이진 트리 구조를 활용해 “밀집” 토폴로지와 “희소” 토폴로지를 교대로 사용하는 폐쇄형 스케줄을 도출한다. 이를 통해 DP를 실행하지 않고도 최적성을 달성한다.

전체 흐름은 다음과 같다: 집합 스케줄 → DP → (선택적) 토폴로지 최적화기 → 재구성 타임라인.

결과 및 발견

시나리오	기준	Harvest (DP)	Harvest (Analytic)	개선
정적 포토닉 메시 (재구성 없음)	1.00×	–	–	–
매 단계마다 재구성	0.78×	–	–	22 % 느림 (오버헤드 때문)
Harvest DP (일반)	0.73×	0.73×	–	~27 % 정적보다 빠름
Harvest Analytic (재귀 이중화)	0.71×	–	0.71×	~29 % 정적보다 빠름, DP 최적과 일치

패킷 수준 시뮬레이션 (ns‑3) 은 AllReduce, Broadcast, ReduceScatter 전반에 걸쳐 지연 감소를 보여줍니다.
흐름 수준 (SimGrid) 실험 은 실제 트래픽 급증 및 경쟁 상황에서도 이점이 유지됨을 확인합니다.
GPU 하드웨어 에뮬레이션 (NVIDIA RTX 6000) 은 이론적 이득이 측정 가능한 실제 시간 가속으로 전환됨을 검증합니다 (≈ 2–3 ms per 8‑GPU AllReduce).

핵심 요점은 부분 재구성이—혼잡 이득이 스위치 지연보다 클 때만—가장 좋은 트레이드오프를 제공한다는 것입니다.

Practical Implications

System architects can plug Harvest into the compiler or runtime of distributed deep‑learning frameworks (e.g., NCCL, Horovod) to automatically emit photonic re‑configuration commands alongside collective calls.
Datacenter designers gain a quantitative tool to decide how much re‑configuration latency a photonic switch must guarantee to be worthwhile; the model can guide silicon‑photonic technology choices (MEMS vs. electro‑optic).
Software developers can expose a simple API (set_collective_schedule(...)) that abstracts away the underlying DP, letting them focus on algorithmic improvements rather than low‑level network tuning.
Energy efficiency – By reducing the number of active optical paths and avoiding unnecessary re‑configurations, Harvest can lower the overall power draw of the photonic fabric, an important metric for exascale systems.

In short, Harvest bridges the gap between the theoretical bandwidth of silicon photonics and the practical needs of high‑performance collective communication.

제한 사항 및 향후 연구

DP의 확장성 – DP는 다항식이지만, 토폴로지‑최적화 하위 문제는 매우 큰 스위치 패브릭(> 1024 포트)에서 병목이 될 수 있다. 휴리스틱 스케일링 전략이 필요하다.
결정론적 스케줄 가정 – Harvest는 알려진 정적 집합 스케줄을 전제로 한다; 동적 또는 적응형 집합(예: 부하 균형 AllReduce)에서는 온라인 재스케줄링이 필요하다.
하드웨어 검증 범위 – 실험은 단일 GPU 플랫폼과 시뮬레이션된 포토닉 스위치에 제한되었으며, 다중 노드 포토닉 클러스터에 대한 광범위한 검증은 아직 진행 중이다.
이기종 트래픽으로의 확장 – 향후 연구에서는 혼합 워크로드(집합 + 점대점)를 포함하고 두 트래픽 유형을 아우르는 공동 스케줄링을 탐구할 수 있다.

전체적으로, Harvest는 포토닉 인터커넥트를 실제 HPC 및 AI 시스템에서 진정으로 적응형으로 만들기 위한 유망한 연구 방향을 제시한다.

저자

Mahir Rahman
Samuel Joseph
Nihar Kodkani
Behnaz Arzani
Vamsi Addanki

논문 정보

arXiv ID: 2602.09188v1
분류: cs.NI, cs.DC
출판일: 2026년 2월 9일
PDF: PDF 다운로드

[Paper] Harvest: 적응형 포토닉 스위칭 스케줄을 이용한 스케일업 도메인에서의 집합 통신

Overview

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Min‑Sum 균일 커버리지 문제 by 자율 모바일 로봇

[Paper] 네트워크 아키텍처에 대한 Global Distributed Protocols의 구현 가능성

[Paper] AMD MI300A에서 FP8 매트릭스 코어, 비동기 실행 및 구조적 희소성에 대한 실행 중심 특성화

[Paper] 현대 MoE 모델 및 하드웨어 시스템을 위한 Attention-FFN 분리의 과제 공개