[논문] StageFrontier: 분산 ML 학습을 위한 동기화 인식 단계 관리
개요
분산 학습 작업이 느려질 때 가장 어려운 점은 원인을 찾는 위치를 아는 것이다. 동기화 때문에 원인이 가려진다: 한 랭크에서 발생한 정체가 다른 랭크에서는 대기 시간으로 나타나므로, 단일 랭크의 데이터 지연이 전체 그룹에서는 역전파 시간으로 드러날 수 있다. 항상 실행되는 저렴한 대시보드—단계별 평균 및 최대값—는 이를 오해한다. 같은 지연을 두 번 계산하거나 느린 랭크를 평균에 묻어버리며, 반면 전체 프로파일러는 이를 명확히 보지만 너무 무거워서 계속 켜두기 어렵다. StageFrontier는 이러한 격차를 메우는 항상 켜져 있는 신호이다. 각 랭크는 CPU 벽시계 기준으로 동기화된 시계나 커널 트레이싱 없이, 데이터, 포워드, 백워드 등과 같은 거친 단계 지속시간을 짧은 순서가 있는 벡터 형태로만 보고한다. 각 단계 경계에서 StageFrontier는 가장 앞선 랭크의 누적 시간을 취한다; 이 경계의 증가분은 단계별 노출된 시간을 정확히, 가산적으로 계산한 것이며, 그룹 전체에서 지연이 처음 나타나는 단계와 랭크를 가리켜 운영자가 무거운 프로파일러를 어디에 집중해야 할지 알려준다—어떤 수정을 해야 할지는 알려주지 않는다. 계산은 정확하지만, 거친 신호만으로는 앞선 단계가 실제로 지연을 일으켰는지 아니면 단순히 함께 실행됐는지 판단할 수 없다; StageFrontier는 그 구분에 추가 증거가 필요한 구간을 표시해 추측을 피한다. PyTorch 구현은 Gloo와 NCCL 환경에서 128개의 랭크에 대해 전체 처리량 오버헤드가 0.2% 미만이며, 숨겨진 랭크 DDP 테스트의 50개 행 모두에서 상위 두 의심 대상 중 하나에 결함을 주입하고, PyTorch Profiler, HTA, Nsight Systems와 동일한 상위 단계 라우팅을 복구한다. 이는 15.81 GB 트레이스 대신 0.11 MB 요약으로 동일한 거친 단계로 축소된 결과이다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.DC
방법론
자세한 방법론은 전체 논문을 참고하시기 바란다.
실용적 함의
본 연구는 cs.DC 분야의 발전에 기여한다.
저자
- Boram Yoon
- Wei Chen
- Ville Kallioniemi
논문 정보
- arXiv ID: 2606.06751v1
- 분류: cs.DC
- 발표일: 2026년 6월 4일
- PDF: PDF 다운로드