[Paper] LLM 기반 Intent 기반 Privacy-Aware Orchestration 클라우드-엣지 연속체 전반에 걸쳐

발행: 3일 전 (2026년 2월 18일 오전 09:09 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2602.16100v1

Overview

이 논문은 대규모 언어 모델(LLM) 추론이 끊임없이 변하는 워크로드 조합과 현대 클라우드‑엣지 인프라를 구동하는 이기종 GPU에 실시간으로 적응하도록 하는 새로운 시스템을 제시한다. “pipeline reconfiguration”을 몇 밀리초 수준의 다운타임만으로 가능하게 함으로써, 저자들은 자원이 부족하거나 워크로드가 급격히 변동할 때에도 LLM 서비스의 응답성을 유지할 수 있음을 보여준다.

핵심 기여

Dynamic pipeline reconfiguration: LLM 서비스가 실행 중일 때 새로운 GPU‑전용 배포 구성을 교체할 수 있습니다.
State‑preserving migration: 대규모 모델 파라미터와 추론 상태를 서비스 중단 시간 ≤ 50 ms 로 이동시키는 기술입니다.
Serverless‑friendly orchestration: 기존 함수‑형‑서비스(FaaS) 플랫폼과 통합되어 수동 튜닝 없이 탄력적인 확장이 가능합니다.
Empirical evaluation: 이기종 GPU 군(NVIDIA A100 & L40)에서 시간‑대‑첫‑토큰(TTFT) 및 토큰당‑출력‑시간(TPOT) 모두 < 10 % 오버헤드를 보였습니다.

Methodology

Workload Characterization – 시스템은 요청 패턴(예: 토큰 길이, 동시성)과 GPU 사용량을 지속적으로 모니터링합니다.
Configuration Catalog – 각 GPU 유형에 대해 사전 계산된 파이프라인 레이아웃(배치 크기, 텐서 병렬성, 양자화 수준) 집합을 유지합니다.
Decision Engine – LLM 기반 정책 모델이 현재 워크로드와 하드웨어 상태를 고려하여 최적의 구성을 예측합니다.
Live Migration Protocol
- Checkpointing: 현재 추론 상태(어텐션 캐시, KV‑cache)를 GPU 메모리에 스냅샷합니다.
- Parameter Streaming: 모델 가중치를 고속 PCIe/NVLink 링크를 통해 대상 GPU로 스트리밍하고, 압축을 활용해 대역폭을 줄입니다.
- Warm‑Start: 체크포인트를 새로운 파이프라인에 복원하고, 대기 중인 요청을 최소 지연으로 재개합니다.
Serverless Integration – 전체 흐름을 서버리스 함수로 래핑하여 오케스트레이션 레이어에서 자동으로 트리거될 수 있게 하며, 개발자 경험을 익숙하게 유지합니다.

결과 및 발견

지표	기준 (정적)	동적 재구성	오버헤드
서비스 다운타임 (마이그레이션)	–	48 ms (avg)	< 0.05 s
TTFT	120 ms	128 ms	+6.7 %
TPOT	15 ms/token	16.3 ms/token	+8.7 %
GPU 활용도 (이기종 혼합)	68 %	84 %	+16 %

마이그레이션 비용은 일반적인 인간이 인지하는 지연 임계값(≈ 100 ms)보다 훨씬 낮게 유지됩니다.
폭발적인 요청 급증 상황에서도 시스템은 더 높은 처리량 구성을 선택하고(예: 더 큰 배치, 낮은 정밀도) 부하가 완화되면 원래대로 되돌아가 전체 지연 시간을 안정적으로 유지합니다.
이기종 하드웨어를 활용합니다: A100에서 더 잘 동작하는 워크로드는 자동으로 해당 장치로 이동하고, 가벼운 작업은 비용 효율적인 L40에 유지됩니다.

Practical Implications

Serverless LLM APIs는 이제 개발자가 컨테이너를 직접 프로비저닝하거나 재구성하지 않아도 혼합 GPU 풀 전체에서 자동으로 스케일링할 수 있습니다.
Cost optimization: 우선순위가 낮은 추론을 저렴한 GPU로 이동하고 필요할 때만 프리미엄 A100으로 승격함으로써 클라우드 제공자는 더 나은 활용도를 가진 단계별 가격을 제공할 수 있습니다.
Edge deployments: 동일한 기술은 보통 수준의 GPU를 탑재한 엣지 디바이스에서도 작동하여, 엣지에서 과부하가 발생하면 클라우드로 원활히 전환되는 온‑디바이스 추론을 가능하게 합니다.
Continuous deployment: 새로운 모델 버전이나 양자화 스킴을 서비스 중단 없이 롤아웃할 수 있어, LLM에 의존하는 SaaS 제품(예: 챗봇, 코드 어시스턴트)의 다운타임을 감소시킵니다.

제한 사항 및 향후 연구

접근 방식은 고속 GPU 간 인터페이스(PCIe 4.0/5.0, NVLink)를 가정합니다; 느린 네트워크에서는 마이그레이션 지연이 증가할 수 있습니다.
파이프라인 구성 카탈로그는 정적이며, 미지의 하드웨어에 대해 실시간으로 최적 구성을 생성하는 것은 아직 해결되지 않은 과제입니다.
스트리밍되는 모델 파라미터의 보안 및 프라이버시는 주요 초점이 아니었습니다—향후 연구에서는 암호화 전송 및 인증을 통합할 수 있습니다.
프레임워크를 다중 노드·다중 지역 오케스트레이션(단일 데이터센터를 넘어)으로 확장하는 것은 향후 연구 과제로 남겨두었습니다.

저자

Zijie Su
Muhammed Tawfiqul Islam
Mohammad Goudarzi
Adel N. Toosi

논문 정보

arXiv ID: 2602.16100v1
분류: cs.DC
출판일: 2026년 2월 18일
PDF: PDF 다운로드

[Paper] LLM 기반 Intent 기반 Privacy-Aware Orchestration 클라우드-엣지 연속체 전반에 걸쳐

Overview

핵심 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] TopoSZp: 경량 위상 인식 오류 제어 압축 for Scientific Data

[Paper] Informative Trains: 메모리 효율적인 Self-Stabilizing Leader Election Algorithm을 위한 익명 그래프에서의 여정

[Paper] 시각적 인사이트: 보편적인 스트림 처리 서비스의 에이전시 최적화

[Paper] Trivance: 지연 최적 AllReduce를 위한 멀티포트 네트워크 단축