[논문] 코어가 늘어날수록 악화: HPC에서 벡터 데이터베이스 확장 역설
개요
벡터 데이터베이스는 클라우드 환경에 맞추어 설계·최적화되어 왔지만, 분자 검색, 기상 궤적 탐지, 문헌 기반 가설 생성 등 새로운 과학 AI 워크로드는 HPC 시스템에서 효율적이고 확장 가능한 실행을 요구합니다. 우리는 두 대의 운영 슈퍼컴퓨터에서 최신 벡터 데이터베이스 3종(Qdrant, Milvus, Weaviate)을 대규모로 평가했으며, 64개의 계산 노드에 걸쳐 256개의 분산 워커까지 확장했습니다. 대표적인 워크로드 패턴(읽기·쓰기 혼합 및 쓰기 후 읽기)을 인기 벤치마크, 다중모달 임베딩, 그리고 새로운 실제 과학 데이터셋을 이용해 테스트했습니다. 결과는 워크로드 특성이 지연시간 감소를 제한할 수 있고, 추가 코어가 쿼리 처리량을 최대 30.67% 감소시킬 수 있으며, 워커 수를 16에서 256(16배)으로 늘려도 성능 향상은 5.46배에 불과함을 보여줍니다. 이러한 확장 패러독스는 클라우드 중심 설계와 HPC 시스템 사이의 근본적인 불일치를 드러내며, HPC 친화적인 새로운 벡터 데이터베이스 설계가 필요함을 강조합니다.
핵심 기여
이 논문은 다음 분야의 연구를 다룹니다.
- cs.DC
- cs.DB
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 시사점
이 연구는 cs.DC 분야의 발전에 기여합니다.
저자
- Seth Ockerman
- Song Young Oh
- Amal Gueroudji
- Rochana Chaturvedi
- Philip Carns
- Nicholas Chia
- Matthieu Dorier
- Robert Latham
- Tanwi Mallick
- Swan Perarnau
- Robert Underwood
- Kyle Chard
- Ian Foster
- Robert Ross
- Shivaram Venkataraman
논문 정보
- arXiv ID: 2606.08950v1
- Categories: cs.DC, cs.DB
- Published: 2026년 6월 8일
- PDF: PDF 다운로드