[Paper] 고성능 서버리스 컴퓨팅: HPC, AI 및 빅데이터를 위한 서버리스에 관한 체계적 문헌 검토
Source: arXiv - 2601.09334v1
Overview
이 논문은 서버리스 컴퓨팅과 고성능 컴퓨팅(HPC), 인공지능(AI), 빅데이터 워크로드의 빠르게 성장하는 교차점을 조사합니다. 2018‑2025년 사이에 발표된 122개의 논문을 체계적으로 검토함으로써, “functions‑as‑a‑service” 모델이 클라우드, HPC 및 하이브리드 인프라에서 계산 집약적이고 병렬적인 작업을 실행하도록 어떻게 적용되고 있는지를 지도화합니다.
주요 기여
- 포괄적인 체계적 문헌 검토 (SLR) 로 122개의 동료 검토 논문을 다루며, HPC/AI/빅데이터용 서버리스의 최신 현황을 제공한다.
- 연구 방향 분류 체계: 8개의 주요 카테고리(예: 런타임 최적화, 데이터 로컬리티, 스케줄링, 보안, 프로그래밍 모델, 자원 프로비저닝, 하이브리드 오케스트레이션, 성능 벤치마킹).
- 사용 사례 분류 체계: 과학 시뮬레이션, 딥러닝 학습/추론, 그래프 분석, 스트림 처리, 대규모 ETL 파이프라인 등 9개 분야.
- 트렌드 분석: 논문 발표 급증, 신흥 하위 분야, 학제 간 협업 증가를 시각화한다.
- 협업 네트워크 매핑: 주요 연구 클러스터, 영향력 있는 저자 및 분야를 주도하는 기관을 식별한다.
- 실용적인 가이드: 컴퓨팅 집약적 워크로드에 서버리스를 도입하려는 엔지니어를 위한 최선 실천 권고안을 정리한다.
방법론
- 검색 전략 – 저자들은 주요 디지털 라이브러리(IEEE Xplore, ACM DL, Scopus, arXiv)를 대상으로, “serverless”, “FaaS”, “HPC”, “AI”, “big data”와 같은 키워드 목록을 사용해 검색했습니다.
- 포함/제외 기준 – 논문은 (a) 서버리스가 주요 실행 모델인 경우, (b) 계산 집약적인 워크로드를 대상으로 하는 경우, (c) 실증 결과 또는 견고한 개념적 프레임워크를 제시하는 경우에만 포함되었습니다. 비영어 논문, 튜토리얼, 순수 클라우드 전용 사례 연구는 제외되었습니다.
- 데이터 추출 – 선택된 각 논문에 대해 팀은 메타데이터(연도, 발표처, 저자), 연구 목표, 아키텍처 선택, 성능 지표 및 보고된 과제 등을 기록했습니다.
- 통합 – 정성적 코딩을 사용해 논문을 주제별 그룹으로 클러스터링한 뒤, 두 개의 분류 체계(연구 방향 및 사용 사례 도메인)를 구축했습니다. 서지계량 도구(VOSviewer)를 이용해 협업 그래프와 트렌드 플롯을 생성했습니다.
이 과정은 재현성을 보장하고 편향을 최소화하기 위해 표준 SLR 가이드라인(Kitchenham & Charters)을 따릅니다.
결과 및 발견
| 발견 | 의미 |
|---|---|
| 급속한 성장 – 연간 논문 수가 2018년 <5편에서 2024년 >30편으로 증가했습니다. | 커뮤니티가 서버리스가 실용적인 HPC/AI 플랫폼으로 빠르게 인식하고 있습니다. |
| 하이브리드 오케스트레이션이 지배 – 논문의 38 %가 클라우드 FaaS와 기존 HPC 스케줄러(예: Slurm, PBS)를 연결하는 데 초점을 맞추고 있습니다. | 실제 배포에서는 기존 HPC 클러스터와의 원활한 통합이 필요합니다. |
| 성능 병목 – 콜드 스타트 지연 및 제한된 GPU/FPGA 접근성이 여전히 주요 과제입니다. | 함수 초기화 최적화와 가속기 노출이 중요한 연구 분야입니다. |
| 데이터 로컬리티 중요 – 성공적인 프로토타입의 62 %가 스토리지와 컴퓨팅을 공동 배치하고 있습니다(예: 객체 스토어 트리거 사용). | 데이터 이동을 줄이는 것이 AI 학습 및 빅데이터 분석 확장에 필수적입니다. |
| 프로그래밍 모델 진화 – 새로운 DSL 및 기존 프레임워크(예: PyWren, CloudBurst) 확장이 병렬성을 표현하기 위해 등장하고 있습니다. | 개발자는 친숙한 Python/Scala 코드를 작성하고 런타임이 함수 샤딩을 처리합니다. |
| 보안 및 다중 테넌트 격리 – 연구의 15 %만이 HPC 워크로드에 대한 격리 보장을 다룹니다. | 민감한 과학 데이터에 대한 견고한 보안 모델에 격차가 있습니다. |
Practical Implications
- 클라우드‑네이티브 AI 엔지니어를 위한 – 서버리스는 급증하는 추론 워크로드를 오프로드하고, GPU 함수의 자동 스케일링을 지원하며, VM이나 컨테이너를 관리하는 것에 비해 운영 오버헤드를 감소시킵니다.
- HPC 관리자에게 – 하이브리드 오케스트레이션 레이어를 통해 기존 배치 시스템이 작업 스크립트를 재설계하지 않고도 탄력적인 클라우드 버스트에 접근할 수 있습니다.
- 데이터 엔지니어를 위한 – 이벤트‑드리븐 파이프라인(예: Kafka → Lambda → S3)은 함수 병렬성을 활용하여 무거운 변환(예: map‑reduce, 그래프 처리)을 포함할 수 있게 됩니다.
- 비용 최적화 – 사용량 기반 과금은 불규칙한 과학 워크로드와 잘 맞으며, 스팟 인스턴스 또는 프리엠티블 함수 제공과 결합될 경우 총 소유 비용을 낮출 수 있습니다.
- 툴링 로드맵 – 분류 체계는 툴이 성숙한 영역(예: Python 기반 FaaS SDK)과 아직 격차가 있는 영역(예: GPU 인식 스케줄러, 보안 멀티‑테넌트 데이터 파이프라인)을 강조합니다.
개발자는 낮은 수준의 리소스 제어를 제공하는 오픈소스 서버리스 런타임(OpenFaaS, Knative)을 실험하거나, 현재 GPU를 지원하는 관리형 서비스(AWS Lambda GPU, Azure Functions on N-series)를 활용해 시작할 수 있습니다.
제한 사항 및 향후 연구
- 문헌 범위 – 이 리뷰는 2025년 초까지의 논문만 포함하며, 빠르게 변화하는 사전 인쇄본 및 산업 백서가 충분히 반영되지 않을 수 있습니다.
- 실증적 깊이 – SLR이 보고된 지표들을 종합하지만 실험을 재실행하지 않으므로, 논문 간 성능 비교는 하드웨어 및 벤치마크 설정 차이에 영향을 받을 수 있습니다.
- 보안 초점 – 저자들은 HPC 데이터에 대한 격리 및 규정 준수 작업이 부족함을 지적하며, 향후 연구에서는 서버리스 환경에서 샌드박스, 증명 및 기밀 컴퓨팅을 탐구해야 합니다.
- 표준화 – 이 분야는 가속기와 고속 인터커넥트를 노출하는 통합 API가 부족하며, 개방형 표준을 마련하면 채택이 가속화될 수 있습니다.
저자들은 더 많은 학제간 협업, 서버리스 HPC에 맞춘 벤치마크 스위트, 그리고 엣지에서 지연 시간에 민감한 AI 추론에 대한 심층 연구를 촉구합니다.
저자
- Valerio Besozzi
- Matteo Della Bartola
- Patrizio Dazzi
- Marco Danelutto
논문 정보
- arXiv ID: 2601.09334v1
- 카테고리: cs.DC, cs.LG
- 출판일: January 14, 2026
- PDF: PDF 다운로드