[Paper] RHAPSODY: 대규모 하이브리드 AI‑HPC 워크플로우 실행

발행: 1개월 전 (2025년 12월 24일 오전 06:42 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2512.20795v1

Overview

이 논문은 RHAPSODY라는 미들웨어 레이어를 소개합니다. RHAPSODY는 개발자들이 대규모 시뮬레이션, 딥러닝 학습, 고처리량 추론, 그리고 긴밀하게 결합된 에이전트 기반 제어와 같은 매우 이질적인 AI‑HPC 파이프라인을 하나의 작업으로 리더십‑클래스 슈퍼컴퓨터에서 실행할 수 있게 합니다. 기존 런타임을 대체하기보다 오케스트레이션함으로써, RHAPSODY는 전통적인 MPI 기반 과학 코드와 최신 AI 서비스 사이의 격차를 메우고, 이러한 이질적인 구성 요소들이 효율적으로 함께 확장될 수 있도록 합니다.

주요 기여

통합 추상화 계층은 작업, 서비스, 자원 및 실행 정책을 MPI, 컨테이너화된 AI 서비스, 그리고 세분화된 작업 런타임 전반에 걸쳐 작동하도록 제공합니다.
조합 가능한 다중 런타임 아키텍처는 기존 런타임(RADICAL‑Pilot, Dask, Ray, vLLM 등)을 재구성하지 않고도 조정합니다.
낮은 오버헤드 오케스트레이션은 여러 리더십‑클래스 시스템에서 입증되었으며, 고처리량 추론에 대해 거의 선형에 가까운 확장성과 효율적인 AI‑HPC 결합을 보여줍니다.
실제 검증은 두 가지 대표 워크로드를 통해 수행되었습니다: (1) 대규모에서 Dragon(과학 시뮬레이션) + vLLM 추론, 그리고 (2) 시뮬레이션 단계와 AI 의사결정을 긴밀히 결합한 에이전시 워크플로.
확장 가능한 정책 엔진은 사용자가 단일 작업 할당 내에서 이기종 구성 요소에 대한 배치, 우선순위 및 데이터 이동 전략을 지정할 수 있게 합니다.

방법론

추상화 설계 – 저자들은 배치형 MPI 작업과 지속적인 AI 서비스의 핵심 의미를 포착하는 일련의 일반 객체(작업(Task), 서비스(Service), 자원(Resource), 정책(Policy))를 정의했습니다.
런타임 구성 – RHAPSODY는 각 필요한 런타임(예: srun을 통한 MPI 작업, singularity를 이용한 컨테이너화된 추론 서버, Dask를 통한 작업 큐)을 동일한 할당 내에서 시작합니다. 가벼운 코디네이터가 이들 간의 통신 및 자원 공유를 중재합니다.
정책 기반 스케줄링 – 사용자는 JSON/YAML 정책을 제공하여 각 런타임에 할당할 노드 수, 데이터 로컬리티 제약, 지연 목표 등을 기술합니다. 코디네이터는 실행 시점과 동적 실행 중에 이러한 정책을 적용합니다.
벤치마킹 – 세 개의 HPC 시스템(Summit, Perlmutter, Theta)에서 다음을 사용하여 실험을 수행했습니다:
- 고처리량 추론: 수천 개의 동시 vLLM 요청이 Dragon 시뮬레이션에 공급됩니다.
- 에이전트 워크플로: 시뮬레이션 단계가 AI 모델을 트리거하여 다음 시뮬레이션 파라미터를 결정하고, 서브초 수준의 왕복 지연 시간이 필요합니다.
수집된 메트릭 – 런타임 오버헤드, 스케일링 효율성, 엔드‑투‑엔드 지연 시간, 네트워크 I/O를 측정하고 각 구성 요소를 개별적으로 실행한 베이스라인 실행과 비교했습니다.

Results & Findings

Scenario	Scaling Behavior	Overhead	Key Insight
High‑throughput inference (vLLM + Dragon)	4 k 노드까지 거의 선형(≈ 98 % 효율)	네이티브 vLLM 대비 < 5 % 추가	RHAPSODY의 스케줄러는 시뮬레이션이 동시에 실행되는 동안 추론 워커들을 포화 상태로 유지할 수 있다.
Agentic AI‑HPC loop	1 k 노드 전역에서 지속적인 100 ms 미만 왕복 지연	약 3 % 런타임 오버헤드	기본 MPI 시뮬레이션 성능을 희생하지 않고도 긴밀한 결합이 가능하다.
Mixed workloads (MPI + container services)	균형 잡힌 자원 활용; 어느 쪽도 자원 고갈 없음	최소한의 조정 비용(≈ 2 % of total wall‑time)	정책 엔진이 공정성을 성공적으로 적용하고 사용자가 지정한 우선순위를 준수한다.

Overall, RHAPSODY adds only a few percent of runtime overhead while enabling heterogeneous workloads to co‑exist and scale on the same allocation—something most existing HPC schedulers cannot do.

실용적인 시사점

One‑job deployments: 개발자는 기후 모델, 딥‑러닝 대리 모델, 강화‑학습 컨트롤러를 하나의 sbatch 스크립트에 묶어 배포할 수 있어 작업 관리가 간소화되고 대기열 대기 시간이 감소합니다.
Cost‑effective resource usage: MPI와 AI 서비스를 노드 간에 공유함으로써 조직은 고가의 리더십‑클래스 시스템에서 활용도를 높여 전체 컴퓨팅 비용을 절감할 수 있습니다.
Rapid prototyping of AI‑augmented simulations: 연구자는 로컬에서 에이전트 기반 워크플로를 빠르게 반복하고, RHAPSODY의 포터블 정책 파일 덕분에 오케스트레이션 코드를 다시 작성하지 않고도 규모를 확장할 수 있습니다.
Vendor‑agnostic integration: RHAPSODY가 기존 런타임을 조합하므로 팀은 익숙한 도구(예: PyTorch, TensorFlow, OpenFOAM)를 계속 사용하면서 통합 스케줄러의 이점을 누릴 수 있습니다.
Future‑proofing: AI 모델이 점점 더 커지고 인터랙티브해짐에 따라, RHAPSODY의 저지연 결합은 디지털 트윈, 자율 과학 실험, 실시간 데이터 동화와 같은 신흥 분야에 필수적이 될 것입니다.

제한 사항 및 향후 작업

기본 런타임에 대한 의존성: RHAPSODY의 성능은 구성된 런타임의 기능에 의해 제한됩니다 (예: MPI 시작 지연, 컨테이너 시작 시간).
정책 복잡성: 매우 큰 다중 테넌트 작업에 대한 최적 자원 할당 정책을 설계하는 것은 쉽지 않으며 자동 튜닝 도구가 필요할 수 있습니다.
내결함성: 현재 구현은 비교적 안정적인 할당을 전제로 하며, 노드 장애 처리나 서비스의 동적 확장은 향후 확장에 맡겨져 있습니다.
다양한 하드웨어 지원: 저자들은 GPU‑direct 통신 라이브러리를 통합하고, 새로운 가속기 아키텍처(예: Habana, Graphcore)에 대한 지원을 탐색할 계획입니다.

요약하면, RHAPSODY는 신중하게 설계된 미들웨어가 하이브리드 AI‑HPC 워크플로우의 전체 잠재력을 발휘할 수 있음을 보여주며, 개발자에게 성능을 희생하지 않고 대규모 복잡하고 데이터 집약적인 파이프라인을 실행할 수 있는 실용적인 경로를 제공합니다.

저자

Aymen Alsaadi
Mason Hooten
Mariya Goliyad
Andre Merzky
Andrew Shao
Mikhail Titov
Tianle Wang
Yian Chen
Maria Kalantzi
Kent Lee
Andrew Park
Indira Pimpalkhare
Nick Radcliffe
Colin Wahl
Pete Mendygral
Matteo Turilli
Shantenu Jha

논문 정보

arXiv ID: 2512.20795v1
분류: cs.DC
출판일: 2025년 12월 23일
PDF: PDF 다운로드

[Paper] RHAPSODY: 대규모 하이브리드 AI‑HPC 워크플로우 실행

Overview

주요 기여

방법론

Results & Findings

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 적응형 클라우드 아키텍처 제1 워크숍 논문집

[Paper] FUSCO: 고성능 분산 데이터 셔플링을 위한 Transformation-Communication Fusion

[Paper] 불안정한 연결을 가진 이기종 네트워크에서 강인한 연합 파인튜닝: 집계 관점

[Paper] BLEST: Tensor Cores를 사용한 번개처럼 효율적인 BFS