회고: MongoDB 7.0을 우리 AI/ML 파이프라인에 6개월 사용한 결과 – 문서 저장 30% 더 빠름

발행: (2026년 5월 2일 PM 12:13 GMT+9)
8 분 소요
원문: Dev.to

Source: Dev.to

위 링크에 포함된 전체 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다.

Introduction

2023년 4분기에 AI/ML 파이프라인을 현대화하려고 할 때, 우리는 고처리량 학습 데이터 수집, 저지연 모델 아티팩트 저장, 그리고 기존 Python 기반 ML 스택과의 원활한 통합을 지원할 수 있는 문서 저장소가 필요했습니다. Cassandra, PostgreSQL, 그리고 MongoDB 7.0을 평가한 결과, 네이티브 벡터 검색 지원, 유연한 스키마 설계, 그리고 비정형 ML 워크로드에 대한 입증된 확장성을 갖춘 MongoDB 7.0을 선택했습니다. 6개월이 지난 지금, 우리는 다음과 같은 결과를 공유합니다: 문서 저장 속도 30 % 향상, 운영 오버헤드 감소, 그리고 유사 워크로드를 운영하는 팀을 위한 주요 교훈.

MongoDB 7.0의 ML 파이프라인 핵심 기능

  • Atlas Vector Search – 별도의 벡터 데이터베이스가 필요 없는 벡터 임베딩에 대한 네이티브 지원.
  • Improved Time‑Series Collections – 학습 메트릭, 추론 로그, 파이프라인 텔레메트리의 고속 수집에 최적화되었으며, 자동 압축 및 TTL 지원.
  • Enhanced Aggregation Pipeline – 새로운 $vectorSearch$densify 연산자를 통해 데이터베이스 내에서 학습 데이터 전처리를 간소화하고 데이터 이동을 감소.
  • Sharding Improvements – 보다 나은 탄력적 확장; 6개월 동안 훈련 데이터셋이 12 TB에서 41 TB로 증가했으며 샤드 재균형 중 다운타임이 없었습니다.

성능 측정

우리는 세 가지 핵심 파이프라인 단계에서 스토리지 성능을 측정했습니다:

  1. 원시 학습 데이터 수집
  2. 모델 아티팩트 쓰기 (체크포인트, 가중치, 메타데이터)
  3. 추론 결과 로깅

모든 벤치마크는 동일한 워크로드 프로파일을 사용했습니다: 분당 1.2 M 문서 쓰기, 평균 문서 크기 4.7 KB, 프로덕션 클러스터 전반에 걸쳐 3배 복제.

MongoDB 6.0과 비교한 결과

MetricMongoDB 6.0MongoDB 7.0Improvement
Average write latency (hot data)12 ms8.4 ms30 % faster
99th‑percentile write latency47 ms31 ms
Write throughput1.2 M docs/min1.46 M docs/min22 % higher
Storage footprint18 % reduction (new compression algorithms)

우리는 MongoDB 내장 Performance Advisor와 사용자 정의 Prometheus/Grafana 대시보드를 사용하여 쓰기 지연 시간, 처리량 및 오류율을 추적함으로써 이 결과를 검증했습니다. 학습 데이터 접근에 대한 읽기 성능에서는 회귀가 관찰되지 않았으며, 95번째 백분위수 읽기 지연 시간은 6 ms로 안정적으로 유지되었습니다.

구성 및 스키마 조정

ML 워크로드를 위한 스키마 설계

  • 대용량 학습 메타데이터 객체를 문서에 직접 포함하는 방식에서 별도의 컬렉션에 참조하도록 전환하여 고처리량 쓰기 경로의 문서 크기를 감소시켰습니다.
  • 16 MB보다 큰 파일에만 GridFS를 사용하고, 작은 체크포인트는 GridFS 오버헤드를 피하기 위해 BSON 문서로 저장했습니다.

인덱싱 전략

  • 쓰기 집중 컬렉션에 과도한 인덱스를 만들지 않고, MongoDB 7.0의 향상된 기본 인덱싱을 활용해 시계열 데이터를 처리했습니다.
  • 1024차원 임베딩 인덱스를 HNSW 알고리즘으로 생성했으며, 90 % 리콜을 목표로 튜닝하여 조회 속도와 정확도 간의 균형을 맞췄습니다.

운영 조정

  • 쓰기 집중 컬렉션에 대해 새로운 스토리지 엔진 캐시 우선순위를 활성화했습니다.
  • 파이프라인 처리량에 영향을 주지 않도록 비업무 시간에 자동 샤드 키 리밸런싱을 설정했습니다.
  • Python ML 워커용 MongoDB 7.0의 새로운 연결 풀링 기본값으로 전환하여 연결 오버헤드를 약 15 % 감소시켰습니다.

작동하지 않은 시도

  • 새로운 데이터에 대한 모델 재학습을 트리거하기 위해 Change Streams를 사용하려 했지만, 추가된 지연 시간과 오버헤드가 고처리량 파이프라인에 비해 이점을 상회했습니다. 따라서 재학습 트리거를 배치 기반으로 되돌렸습니다.

결과 및 권장 사항

6개월간의 프로덕션 사용 후, MongoDB 7.0은 우리 AI/ML 스택의 핵심 구성 요소가 되었습니다. 30 % 더 빠른 문서 저장 속도와 네이티브 벡터 검색, 향상된 확장성을 결합하여 파이프라인 실행 시간을 22 % 단축하고 운영 비용을 18 % 절감했습니다. 유사한 비정형 ML 워크로드를 운영하는 팀에게는 MongoDB 7.0을 평가할 것을 강력히 권장합니다—특히 이미 임베딩 저장을 위해 벡터 검색을 사용 중이거나 고려하고 있다면.

다음 단계

  • 남아 있는 레거시 PostgreSQL 교육 메타데이터 스토어를 MongoDB 7.0으로 마이그레이션합니다.
  • 벡터 검색 워크로드에서 추가 성능 향상을 위해 MongoDB 7.0.1 점 릴리스를 평가합니다.
  • 이러한 마이그레이션 결과를 포함한 후속 업데이트를 6개월 후에 게시합니다.
0 조회
Back to Blog

관련 글

더 보기 »

AWS에서 멀티 VPC 아키텍처 구축

소개 사람들이 클라우드 네트워킹을 배우기 시작하면 보통 단일 VPC부터 시작합니다. 조직은 워크로드를 다음과 같이 분리합니다: - 보안 - 확장성 - ...