[Paper] Fantasy: GPU 클러스터에서 GPUDirect Async를 이용한 효율적인 대규모 벡터 검색
Source: arXiv - 2512.02278v1
Overview
이 논문은 Fantasy라는 시스템을 소개한다. Fantasy는 GPU 클러스터 전역에서 대규모 벡터 유사도 검색을 수행하면서 데이터 이동에 의해 병목 현상이 발생하지 않도록 한다. GPU 연산과 GPUDirect‑Async 네트워킹을 긴밀히 결합함으로써, 인덱스가 단일 GPU 메모리보다 훨씬 클 때도 GPU에 지속적으로 데이터를 공급하고, 대규모 환경에서도 높은 재현율과 낮은 지연 시간을 제공한다.
Key Contributions
- GPU‑cluster‑wide search pipeline – 인덱스 로딩, 네트워크 전송, 유사도 연산을 겹쳐서 수행하는 설계로, GPU가 유휴 상태에 빠지는 시간을 없앤다.
- GPUDirect‑Async integration – NIC‑to‑GPU 메모리 직접 전송을 활용해 CPU를 우회함으로써 데이터 이동 지연을 크게 감소시킨다.
- Scalable graph handling – 단일 GPU 메모리를 초과하는 그래프 기반 인덱스(예: HNSW)를 지원하며, 이를 여러 노드에 걸쳐 분산한다.
- Large‑batch query support – 한 번에 수천 개의 쿼리를 처리할 수 있어 실시간 AI 서비스의 처리량을 향상시킨다.
- Open‑source prototype & evaluation – 참고 구현과 다중 노드 GPU 클러스터에서 수행한 광범위한 벤치마크를 제공한다.
Methodology
Fantasy는 벡터 검색을 두 단계 파이프라인으로 취급한다:
- Data‑plane (GPUDirect‑Async) – NIC가 필요한 그래프 파티션을 직접 GPU 메모리로 스트리밍하여 호스트 CPU와 시스템 RAM을 거치지 않는다.
- Compute‑plane (GPU kernels) – 한 배치의 쿼리를 처리하는 동안 다음 배치의 그래프 데이터가 이미 가져와지고 있어 GPU가 멈추지 않는다.
저자들은 전역 그래프를 샤드로 분할하고 각 샤드를 GPU에 할당하며, CUDA 스트림과 NCCL을 이용해 비동기 전송을 조정하는 스케줄러를 구축했다. 검색 알고리즘 자체는 표준 그래프 기반 최근접 이웃 탐색(예: HNSW)이며, 주변 인프라가 데이터 대기 시간을 없애준다.
Results & Findings
- Throughput boost: Fantasy는 동기식으로 데이터를 로드하는 기존 CPU‑GPU 하이브리드 대비 5배까지 높은 초당 쿼리(QPS)를 달성했다.
- Latency reduction: 4노드(8GPU) 클러스터에서 128차원 벡터에 대한 전체 지연 시간이 약 12 ms에서 < 3 ms로 감소했다.
- Scalability: 인덱스 크기가 1천만 벡터에서 2억 벡터로 증가해도 GPU 컴퓨팅 활용도가 80 % 이상 유지되었으며, 이는 단일 GPU 메모리 한계(~24 GB)를 훨씬 초과한다.
- Batch size impact: 4 K–8 K 쿼리 배치에서는 Fantasy 파이프라인이 GPU를 포화 상태로 유지했지만, 작은 배치에서는 빈번한 정지 현상이 발생했다.
Practical Implications
- LLM‑powered retrieval: 관련 문서 임베딩을 가져와야 하는 서비스(예: RAG 파이프라인)는 이제 대규모 CPU 팜 없이도 초당 수백만 쿼리를 처리할 수 있다.
- Recommendation & search engines: 제품 또는 사용자 임베딩에 대한 실시간 유사도 조회가 기존 GPU 클러스터에서 가능해져 인프라 비용을 절감한다.
- Edge‑to‑cloud hybrid: 요청에 필요한 그래프 샤드만 오프로드함으로써 “탄력적인” 검색 서비스를 설계할 수 있어 수요에 따라 확장한다.
- Simplified stack: CPU 측 로딩 단계를 없애므로 구성 요소가 줄어들고 배포가 쉬워지며, 지연 시간 변동성이 감소해 SLA 기반 애플리케이션에 중요하다.
Limitations & Future Work
- Network dependency: 높은 대역폭·저지연 인터커넥트(예: InfiniBand)가 전제 조건이며, 느린 Ethernet 환경에서는 이점이 감소할 수 있다.
- Graph‑type focus: Fantasy는 주로 HNSW 스타일 인덱스에 대해 평가했으며, IVF‑PQ와 같은 다른 ANN 구조로 파이프라인을 확장하는 것은 아직 미해결이다.
- Fault tolerance: 현재 프로토타입은 안정적인 클러스터를 가정하고 있어, 노드 장애나 동적 확장을 다루려면 추가적인 조정 로직이 필요하다.
- Memory fragmentation: 샤드가 스트리밍될 때 GPU 메모리 단편화가 장기 작업에 영향을 줄 수 있어, 보다 스마트한 메모리 관리가 개선 방안이 될 수 있다.
Fantasy는 적절한 오케스트레이션을 통해 GPU가 데이터 이동에 의해 제한되지 않고도 실제로 거대한 벡터 검색 작업을 처리할 수 있음을 보여준다. 이는 차세대 AI 기반 검색 시스템을 구축하는 개발자에게 매우 유망한 방향이다.
Authors
- Yi Liu
- Chen Qian
Paper Information
- arXiv ID: 2512.02278v1
- Categories: cs.DC
- Published: December 1, 2025
- PDF: Download PDF