[논문] 코어가 늘어날수록 악화: HPC에서 벡터 데이터베이스 확장 역설

발행: 3일 전 (2026년 6월 8일 AM 11:51 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.08950v1

개요

벡터 데이터베이스는 클라우드 환경에 맞추어 설계·최적화되어 왔지만, 분자 검색, 기상 궤적 탐지, 문헌 기반 가설 생성 등 새로운 과학 AI 워크로드는 HPC 시스템에서 효율적이고 확장 가능한 실행을 요구합니다. 우리는 두 대의 운영 슈퍼컴퓨터에서 최신 벡터 데이터베이스 3종(Qdrant, Milvus, Weaviate)을 대규모로 평가했으며, 64개의 계산 노드에 걸쳐 256개의 분산 워커까지 확장했습니다. 대표적인 워크로드 패턴(읽기·쓰기 혼합 및 쓰기 후 읽기)을 인기 벤치마크, 다중모달 임베딩, 그리고 새로운 실제 과학 데이터셋을 이용해 테스트했습니다. 결과는 워크로드 특성이 지연시간 감소를 제한할 수 있고, 추가 코어가 쿼리 처리량을 최대 30.67% 감소시킬 수 있으며, 워커 수를 16에서 256(16배)으로 늘려도 성능 향상은 5.46배에 불과함을 보여줍니다. 이러한 확장 패러독스는 클라우드 중심 설계와 HPC 시스템 사이의 근본적인 불일치를 드러내며, HPC 친화적인 새로운 벡터 데이터베이스 설계가 필요함을 강조합니다.

핵심 기여

이 논문은 다음 분야의 연구를 다룹니다.

cs.DC
cs.DB

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 시사점

이 연구는 cs.DC 분야의 발전에 기여합니다.

저자

Seth Ockerman
Song Young Oh
Amal Gueroudji
Rochana Chaturvedi
Philip Carns
Nicholas Chia
Matthieu Dorier
Robert Latham
Tanwi Mallick
Swan Perarnau
Robert Underwood
Kyle Chard
Ian Foster
Robert Ross
Shivaram Venkataraman

논문 정보

arXiv ID: 2606.08950v1
Categories: cs.DC, cs.DB
Published: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 코어가 늘어날수록 악화: HPC에서 벡터 데이터베이스 확장 역설

개요

핵심 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[논문] 이기종 엣지 클러스터에서 스케줄링 알고리즘의 공정한 비교: 연속 적응 벤치마크

[논문] 분산 시스템에서 효율적이고 견고한 온라인 순위 학습

[논문] 대형 언어 모델이 포팅한 해양 모델: FESOM2(Fortran→C→C++/Kokkos) 경험과 교훈

[논문] 타일 기반 가속기에서 DNN 기반 엔드투엔드 자율주행 시스템을 위한 격리 인식 스케줄링 프레임워크