[Paper] 하이브리드 및 컴퓨트 집약적 HPC 환경에서 비동기 인간‑AI 협업을 위한 워크플로우 지향 프레임워크
Source: arXiv - 2605.03743v1
개요
논문은 워크플로우‑지향 프레임워크를 소개한다. 이 프레임워크는 인간 전문가와 AI 시스템이 고성능 컴퓨팅(HPC) 환경에서 비동기적으로 협업할 수 있게 한다. 인간 체크포인트를 무거운 계산 작업과 분리함으로써, 프레임워크는 방대한 HPC 자원을 지속적으로 활용하면서도 방위 등급 AI 파이프라인에서 중요한 인간 판단을 허용한다.
주요 기여
- 비동기 체크포인팅: 인간 입력을 위해 워크플로를 일시 중지하면서도 기본 HPC 작업은 중단하지 않아 유휴 컴퓨팅 슬롯을 없앱니다.
- 하이브리드 인프라 지원: SLURM‑관리 클러스터, 로컬 워크스테이션, 퍼블릭 클라우드 자원을 단일 오케스트레이션 레이어 아래에서 원활히 통합합니다.
- 컨테이너 인식 실행: 네이티브 바이너리와 Docker/Singularity 컨테이너 모두와 작동하여 이기종 시스템 간 재현성을 간소화합니다.
- 도메인 특화 확장: 인간 감독(예: 위협 검증, 정책 준수)이 필수인 방위 및 보안 사용 사례를 위한 맞춤형 API를 제공합니다.
- 이식성 시연: MareNostrum 5 슈퍼컴퓨터에서 실제 검증을 수행하여 온‑프레미스와 클라우드 백엔드 간 전환 시 최소한의 코드 변경만 필요함을 보여줍니다.
방법론
-
Workflow definition – Users describe a pipeline as a directed acyclic graph (DAG) of tasks. Certain nodes are marked as human‑gate tasks.
워크플로 정의 – 사용자는 파이프라인을 작업들의 방향성 비순환 그래프(DAG)로 기술합니다. 특정 노드는 human‑gate 작업으로 표시됩니다. -
Scheduler abstraction – The framework translates the DAG into SLURM job scripts (or equivalent cloud batch jobs) while launching a lightweight “orchestrator” service on a local or cloud VM.
스케줄러 추상화 – 프레임워크는 DAG를 SLURM 작업 스크립트(또는 동등한 클라우드 배치 작업)로 변환하면서 로컬 또는 클라우드 VM에 경량 “orchestrator” 서비스를 시작합니다. -
Non‑blocking pause – When a human‑gate task is reached, the orchestrator records the task’s state, notifies the human via a web UI or CLI, and immediately frees the compute node to continue downstream tasks that do not depend on the pending input.
논블로킹 일시정지 – human‑gate 작업에 도달하면 orchestrator가 작업 상태를 기록하고 웹 UI 또는 CLI를 통해 사람에게 알리며, 즉시 컴퓨트 노드를 해제하여 대기 중인 입력에 의존하지 않는 하위 작업들을 계속 진행합니다. -
State persistence – All intermediate artefacts (model checkpoints, logs, metadata) are stored in a shared object store (e.g., Ceph, S3) so that later human input can be merged without re‑running expensive steps.
상태 지속성 – 모든 중간 산출물(모델 체크포인트, 로그, 메타데이터)은 공유 객체 스토어(e.g., Ceph, S3)에 저장되어 이후 인간 입력을 재실행 없이 병합할 수 있습니다. -
Resumption – Once the expert supplies the required data (e.g., label correction, policy flag), the orchestrator injects the new artefact back into the DAG, triggers any dependent tasks, and updates the job scheduler accordingly.
재개 – 전문가가 필요한 데이터를 제공하면(e.g., 라벨 수정, 정책 플래그), orchestrator는 새로운 산출물을 DAG에 삽입하고, 의존 작업을 트리거하며, 작업 스케줄러를 적절히 업데이트합니다.
The design deliberately avoids tight coupling between the HPC scheduler and the human UI, making the approach agnostic to the underlying compute platform.
이 설계는 HPC 스케줄러와 인간 UI 간의 긴밀한 결합을 의도적으로 피하여, 접근 방식이 기본 컴퓨팅 플랫폼에 종속되지 않도록 합니다.
결과 및 발견
- Resource utilization: MareNostrum 5에서 48시간 모델 훈련을 수행했을 때, 비동기 체크포인트는 단순 “작업 일시 정지” 방식에 비해 유휴 노드 시간을 ≈ 32 % 감소시켰습니다.
- Turn‑around time: 사람의 결정부터 다운스트림 작업 시작까지의 전체 지연 시간이 ≈ 2 h(블로킹)에서 ≈ 15 min(비동기)으로 단축되었습니다.
- Portability: 동일한 워크플로우 YAML 파일을 로컬 워크스테이션(4‑코어 CPU)과 Azure Batch 풀에서 코드 변경 없이 실행하여 진정한 하이브리드 기능을 입증했습니다.
- User satisfaction: 방위 분석가들을 대상으로 한 소규모 파일럿에서 웹 기반 체크포인트 UI에 대한 사용성 평점이 4.5/5로, 명확한 상태 가시성과 분석 흐름에 최소한의 방해가 있었음을 강조했습니다.
Practical Implications
- Defence & security AI pipelines – 팀은 이제 대규모 학습 작업을 중단하지 않고 전문가 검증 단계(예: 목표 식별, 규칙 기반 정책 검토)를 삽입할 수 있어 보안 규정 준수와 계산 효율성을 모두 유지할 수 있습니다.
- MLOps for compute‑intensive models – 대형 언어 모델, 기후 시뮬레이션, 물리 기반 신경망을 구축하는 데이터 과학자는 “human‑in‑the‑loop” 품질 게이트(데이터 정제, 편향 감사)를 클러스터 처리량을 희생하지 않고 통합할 수 있습니다.
- Cost savings – 인간 입력을 기다리는 동안 HPC 노드를 계속 활용함으로써 조직은 온프레미스 또는 클라우드 버스트 자원의 유휴 시간에 대한 비용을 절감할 수 있으며, 이는 운영 비용을 크게 줄이는 효과로 이어집니다.
- Cross‑platform reproducibility – 컨테이너 인식 추상화는 검증된 동일 워크플로우가 대학 클러스터, 정부 슈퍼컴퓨터, 상업용 클라우드에서 실행되도록 보장하여 기관 간 협업을 용이하게 합니다.
제한 사항 및 향후 작업
- 오케스트레이터의 확장성 – 현재 프로토타입은 단일 오케스트레이터 인스턴스에 의존합니다; 수천 개의 동시 인간‑게이트 작업으로 확장하려면 분산 조정 레이어가 필요합니다.
- 보안 경계 – 프레임워크가 보안 객체 저장소를 지원하지만, 하이브리드 클라우드 전반에 걸친 기밀 데이터에 대한 세밀한 접근 제어를 통합하는 것은 아직 해결되지 않은 과제입니다.
- 사용자 상호작용 방식 – 이번 연구는 웹 UI에 초점을 맞췄으며, 향후 작업에서는 음성, AR/VR, 또는 자동 의사결정 지원 봇을 탐색하여 지연 시간을 더욱 줄일 계획입니다.
- SLURM 외 일반화 – 다른 스케줄러(PBS, LSF, Kubernetes)에 대한 기본 지원을 확장하여 비‑HPC 환경에서도 적용 범위를 넓히는 것이 계획되어 있습니다.
핵심 요점: 인간 감독을 무거운 연산에서 분리함으로써, 이 워크플로우 프레임워크는 개발자와 AI 엔지니어가 성능이나 비용 효율성을 희생하지 않고도 대규모 HPC AI 프로젝트에 중요한 전문가 판단을 삽입할 수 있는 실용적인 경로를 제공합니다.
저자
- Sergio Mendoza
- Cedric Bhihe
- Natalia Zamora
- David Modesto
- Jose Martin Bugallo Batalla
- Jesus Gomez Canovas
- Rafel Palomo Avellaneda
- Miguel Perez Espinosa
논문 정보
- arXiv ID: 2605.03743v1
- 분류: cs.DC, cs.AI, cs.HC, cs.SE
- 출판일: 2026년 5월 5일
- PDF: PDF 다운로드