[Paper] RHAPSODY: 대규모 하이브리드 AI‑HPC 워크플로우 실행
Source: arXiv - 2512.20795v1
Overview
이 논문은 RHAPSODY라는 미들웨어 레이어를 소개합니다. RHAPSODY는 개발자들이 대규모 시뮬레이션, 딥러닝 학습, 고처리량 추론, 그리고 긴밀하게 결합된 에이전트 기반 제어와 같은 매우 이질적인 AI‑HPC 파이프라인을 하나의 작업으로 리더십‑클래스 슈퍼컴퓨터에서 실행할 수 있게 합니다. 기존 런타임을 대체하기보다 오케스트레이션함으로써, RHAPSODY는 전통적인 MPI 기반 과학 코드와 최신 AI 서비스 사이의 격차를 메우고, 이러한 이질적인 구성 요소들이 효율적으로 함께 확장될 수 있도록 합니다.
주요 기여
- 통합 추상화 계층은 작업, 서비스, 자원 및 실행 정책을 MPI, 컨테이너화된 AI 서비스, 그리고 세분화된 작업 런타임 전반에 걸쳐 작동하도록 제공합니다.
- 조합 가능한 다중 런타임 아키텍처는 기존 런타임(RADICAL‑Pilot, Dask, Ray, vLLM 등)을 재구성하지 않고도 조정합니다.
- 낮은 오버헤드 오케스트레이션은 여러 리더십‑클래스 시스템에서 입증되었으며, 고처리량 추론에 대해 거의 선형에 가까운 확장성과 효율적인 AI‑HPC 결합을 보여줍니다.
- 실제 검증은 두 가지 대표 워크로드를 통해 수행되었습니다: (1) 대규모에서 Dragon(과학 시뮬레이션) + vLLM 추론, 그리고 (2) 시뮬레이션 단계와 AI 의사결정을 긴밀히 결합한 에이전시 워크플로.
- 확장 가능한 정책 엔진은 사용자가 단일 작업 할당 내에서 이기종 구성 요소에 대한 배치, 우선순위 및 데이터 이동 전략을 지정할 수 있게 합니다.
방법론
- 추상화 설계 – 저자들은 배치형 MPI 작업과 지속적인 AI 서비스의 핵심 의미를 포착하는 일련의 일반 객체(작업(Task), 서비스(Service), 자원(Resource), 정책(Policy))를 정의했습니다.
- 런타임 구성 – RHAPSODY는 각 필요한 런타임(예:
srun을 통한 MPI 작업,singularity를 이용한 컨테이너화된 추론 서버, Dask를 통한 작업 큐)을 동일한 할당 내에서 시작합니다. 가벼운 코디네이터가 이들 간의 통신 및 자원 공유를 중재합니다. - 정책 기반 스케줄링 – 사용자는 JSON/YAML 정책을 제공하여 각 런타임에 할당할 노드 수, 데이터 로컬리티 제약, 지연 목표 등을 기술합니다. 코디네이터는 실행 시점과 동적 실행 중에 이러한 정책을 적용합니다.
- 벤치마킹 – 세 개의 HPC 시스템(Summit, Perlmutter, Theta)에서 다음을 사용하여 실험을 수행했습니다:
- 고처리량 추론: 수천 개의 동시 vLLM 요청이 Dragon 시뮬레이션에 공급됩니다.
- 에이전트 워크플로: 시뮬레이션 단계가 AI 모델을 트리거하여 다음 시뮬레이션 파라미터를 결정하고, 서브초 수준의 왕복 지연 시간이 필요합니다.
- 수집된 메트릭 – 런타임 오버헤드, 스케일링 효율성, 엔드‑투‑엔드 지연 시간, 네트워크 I/O를 측정하고 각 구성 요소를 개별적으로 실행한 베이스라인 실행과 비교했습니다.
Results & Findings
| Scenario | Scaling Behavior | Overhead | Key Insight |
|---|---|---|---|
| High‑throughput inference (vLLM + Dragon) | 4 k 노드까지 거의 선형(≈ 98 % 효율) | 네이티브 vLLM 대비 < 5 % 추가 | RHAPSODY의 스케줄러는 시뮬레이션이 동시에 실행되는 동안 추론 워커들을 포화 상태로 유지할 수 있다. |
| Agentic AI‑HPC loop | 1 k 노드 전역에서 지속적인 100 ms 미만 왕복 지연 | 약 3 % 런타임 오버헤드 | 기본 MPI 시뮬레이션 성능을 희생하지 않고도 긴밀한 결합이 가능하다. |
| Mixed workloads (MPI + container services) | 균형 잡힌 자원 활용; 어느 쪽도 자원 고갈 없음 | 최소한의 조정 비용(≈ 2 % of total wall‑time) | 정책 엔진이 공정성을 성공적으로 적용하고 사용자가 지정한 우선순위를 준수한다. |
Overall, RHAPSODY adds only a few percent of runtime overhead while enabling heterogeneous workloads to co‑exist and scale on the same allocation—something most existing HPC schedulers cannot do.
실용적인 시사점
- One‑job deployments: 개발자는 기후 모델, 딥‑러닝 대리 모델, 강화‑학습 컨트롤러를 하나의
sbatch스크립트에 묶어 배포할 수 있어 작업 관리가 간소화되고 대기열 대기 시간이 감소합니다. - Cost‑effective resource usage: MPI와 AI 서비스를 노드 간에 공유함으로써 조직은 고가의 리더십‑클래스 시스템에서 활용도를 높여 전체 컴퓨팅 비용을 절감할 수 있습니다.
- Rapid prototyping of AI‑augmented simulations: 연구자는 로컬에서 에이전트 기반 워크플로를 빠르게 반복하고, RHAPSODY의 포터블 정책 파일 덕분에 오케스트레이션 코드를 다시 작성하지 않고도 규모를 확장할 수 있습니다.
- Vendor‑agnostic integration: RHAPSODY가 기존 런타임을 조합하므로 팀은 익숙한 도구(예: PyTorch, TensorFlow, OpenFOAM)를 계속 사용하면서 통합 스케줄러의 이점을 누릴 수 있습니다.
- Future‑proofing: AI 모델이 점점 더 커지고 인터랙티브해짐에 따라, RHAPSODY의 저지연 결합은 디지털 트윈, 자율 과학 실험, 실시간 데이터 동화와 같은 신흥 분야에 필수적이 될 것입니다.
제한 사항 및 향후 작업
- 기본 런타임에 대한 의존성: RHAPSODY의 성능은 구성된 런타임의 기능에 의해 제한됩니다 (예: MPI 시작 지연, 컨테이너 시작 시간).
- 정책 복잡성: 매우 큰 다중 테넌트 작업에 대한 최적 자원 할당 정책을 설계하는 것은 쉽지 않으며 자동 튜닝 도구가 필요할 수 있습니다.
- 내결함성: 현재 구현은 비교적 안정적인 할당을 전제로 하며, 노드 장애 처리나 서비스의 동적 확장은 향후 확장에 맡겨져 있습니다.
- 다양한 하드웨어 지원: 저자들은 GPU‑direct 통신 라이브러리를 통합하고, 새로운 가속기 아키텍처(예: Habana, Graphcore)에 대한 지원을 탐색할 계획입니다.
요약하면, RHAPSODY는 신중하게 설계된 미들웨어가 하이브리드 AI‑HPC 워크플로우의 전체 잠재력을 발휘할 수 있음을 보여주며, 개발자에게 성능을 희생하지 않고 대규모 복잡하고 데이터 집약적인 파이프라인을 실행할 수 있는 실용적인 경로를 제공합니다.
저자
- Aymen Alsaadi
- Mason Hooten
- Mariya Goliyad
- Andre Merzky
- Andrew Shao
- Mikhail Titov
- Tianle Wang
- Yian Chen
- Maria Kalantzi
- Kent Lee
- Andrew Park
- Indira Pimpalkhare
- Nick Radcliffe
- Colin Wahl
- Pete Mendygral
- Matteo Turilli
- Shantenu Jha
논문 정보
- arXiv ID: 2512.20795v1
- 분류: cs.DC
- 출판일: 2025년 12월 23일
- PDF: PDF 다운로드