[Paper] SOLANET: GPU 가속 시스템에서 분산 이웃 그래프 구축

발행: (2026년 5월 27일 AM 06:13 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2605.27691v1

Overview

이 논문은 SOLANET이라는 툴킷을 소개합니다. SOLANET은 많은 AI 및 분석 파이프라인의 핵심 데이터 구조인 이웃 그래프를 대규모 GPU‑가속 클러스터에서 구축합니다. 락‑프리 단일 GPU 알고리즘과 새로운 분산 정제 단계를 결합함으로써, SOLANET은 수십억 개의 포인트를 포함하는 데이터셋에서 수십 배에 달하는 속도 향상을 달성하여 현대 AMD‑GPU 시스템에서 대규모 그래프 기반 워크로드를 실현 가능하게 합니다.

주요 기여

  • 단일 AMD GPU (MI300A)를 위한 락‑프리 이웃 그래프 구축으로 기존 최첨단 GPU 구현보다 성능이 우수합니다.
  • 분산 파이프라인은 각 GPU마다 로컬 그래프를 먼저 구축하고, 이후 MPI 일방향 통신을 통해 원격 서브 그래프에서 근사 최근접 이웃(ANN) 검색으로 그래프를 정제합니다.
  • GPU 중심 통신 전략은 비용이 많이 드는 동기화와 데이터 이동을 피하여 32에서 512 APU까지 거의 선형에 가까운 확장을 가능하게 합니다.
  • 포괄적인 성능 평가는 10억에서 20억 포인트에 이르는 실제 데이터셋을 대상으로 수행했으며, 32‑APU 기준 대비 최대 11배 가속을 보여줍니다.
  • 오픈소스 툴킷(SOLANET)은 최소한의 코드 변경으로 기존 데이터 사이언스 및 머신러닝 파이프라인에 통합될 수 있습니다.

Methodology

  1. Data Partitioning – 입력 포인트 집합은 클러스터 내 GPU들에 고르게 나뉘어 각 GPU가 대략 동일한 조각을 받습니다.
  2. Local Graph Construction – 각 GPU에서 SOLANET은 잠금‑프리 알고리즘을 실행하여 GPU에 친화적인 프리미티브(예: 워프‑레벨 감소, 공유‑메모리 버퍼)를 사용해 모든 포인트에 대한 k‑nearest‑neighbor(k‑NN) 리스트를 반복적으로 정제합니다.
  3. Remote Graph Pull – 로컬 단계가 끝난 뒤, 각 GPU는 MPI 일방향 GET 연산을 발행해 다른 GPU들로부터 작은 “candidate” 서브셋의 이웃 리스트를 가져옵니다. 이 Pull은 현재 로컬 k‑NN 추정값에 의해 주도되므로, 실제로 유용할 가능성이 높은 원격 포인트만 전송됩니다.
  4. Distributed ANN Refinement – 가져온 원격 이웃 후보들을 로컬 리스트와 병합하고, 제품 양자화 기반의 경량 ANN 검색을 통해 k‑NN 결과를 업데이트합니다. 이 단계는 수 차례 반복되어 수렴할 때까지 진행됩니다.
  5. Final Assembly – 정제된 이웃 리스트는 분산 그래프 표현으로 다시 기록되어, 다운스트림 분석이나 ML 프레임워크에서 바로 사용할 수 있습니다.

전체 파이프라인은 전역 락 없이 조정되며, 동기화는 가벼운 MPI 배리어에 국한되어 GPU 코어가 지속적으로 가동됩니다.

결과 및 발견

데이터셋포인트GPU (APU)32‑APU 기준 대비 속도 향상단일 GPU vs. 기존 GPU 구현
SIFT‑1B1 B32 → 51211×단일 MI300A에서 1.8배 빠름
Deep1B2 B64 → 5126.9×단일 MI300A에서 2.1배 빠름
Random‑1B1 B128 → 5129.3×1.7배 빠름
  • 확장성: 실행 시간은 512개까지의 APU 수에 거의 선형적으로 증가하여, 단방향 MPI 풀링이 병목이 되지 않음을 확인했습니다.
  • 정확도: 근사 이웃 그래프는 정확한 k‑NN에 비해 95 % 이상의 재현율을 유지하며, 기존 ANN 라이브러리와 동일한 품질을 제공하면서 훨씬 빠릅니다.
  • 자원 활용도: 로컬 단계와 원격 단계 모두에서 GPU 점유율이 80 % 이상을 유지하여, 컴퓨팅 및 메모리 대역폭이 효율적으로 사용되고 있음을 보여줍니다.

실용적 함의

  • 가속화된 ML 파이프라인: k‑NN 그래프(예: 그래프 기반 반지도 학습, 확산 지도, 대규모 유사도 검색)에 의존하는 학습 알고리즘이 이제 전처리 단계가 과도하게 소요되지 않고 수십억 개의 샘플을 처리할 수 있습니다.
  • 비용 효율적인 확장: SOLANET이 일반 AMD GPU‑APU 클러스터에서 거의 선형에 가까운 속도 향상을 달성하므로, 조직은 알고리즘을 재설계할 필요 없이 노드를 추가함으로써 용량을 확장할 수 있습니다.
  • 통합 친화성: 툴킷은 C++ API와 Python 바인딩을 제공하므로 데이터 엔지니어가 기존 Spark‑ 또는 Dask‑ 기반 워크플로에 최소한의 리팩터링만으로 쉽게 삽입할 수 있습니다.
  • 엣지‑투‑클라우드 시나리오: 락‑프리 단일 GPU 커널은 강력한 엣지 디바이스(예: AMD 기반 추론 서버)에 배포되어 중앙 클라우드 클러스터와 동기화하기 전에 로컬 이웃 그래프를 구축할 수 있으며, 이를 통해 연합 학습을 위한 계층적 그래프 구축이 가능해집니다.

제한 사항 및 향후 작업

  • 하드웨어 특수성: 락‑프리 커널은 AMD MI300A GPU에 맞게 최적화되어 있으며, NVIDIA 또는 구형 AMD GPU에서는 성능이 낮을 수 있고 추가 튜닝이 필요합니다.
  • 메모리 사용량: 원격 이웃 후보를 일시적으로 저장하면 매우 고차원 데이터의 경우 GPU 메모리를 초과할 수 있어, 반복당 후보 집합의 크기가 제한됩니다.
  • 근사화 한계: 재현율은 높지만, 논문에서는 최악 상황 오류에 대한 공식적인 보장을 제공하지 않으며, 일부 응용에서는 더 엄격한 한계가 필요할 수 있습니다.
  • 향후 방향은 저자들이 제시한 바와 같이 통신 계층을 확장하여 RDMA‑직접 GPU‑대‑GPU 전송을 지원하고, 메모리 압력을 줄이기 위한 적응형 후보 선택을 탐색하며, 그래프를 점진적으로 업데이트해야 하는 동적 데이터 스트림에 대한 지원을 추가하는 것을 포함합니다.

저자

  • Keita Iwabuchi
  • Trevor Steil
  • Benjamin W. Priest
  • Grace J. Li
  • Geoffrey Sanders
  • Roger Pearce

논문 정보

  • arXiv ID: 2605.27691v1
  • 카테고리: cs.DC
  • 출판일: 2026년 5월 26일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »