[Paper] 무선 엣지 네트워크에서 AIGC 서비스 프로비저닝을 위한 배치 디노이징
Source: arXiv - 2511.19847v1
개요
이 논문은 차세대 모바일 서비스를 위한 시급한 과제, 즉 에지 서버에서 사용자에게 고품질 AI‑생성 콘텐츠(AIGC) 이미지를 엄격한 지연 예산 내에 전달하는 문제를 다룹니다. 배치‑디노이징 기법을 도입하고 생성과 전송을 공동 최적화함으로써, 무선 에지 네트워크에서 종단‑대‑종단 지연 제약을 만족하면서 인지된 품질을 향상시킬 수 있음을 보여줍니다.
주요 기여
- 배치 디노이징 프레임워크 – 확산 기반 이미지 생성기의 디노이징 단계를 배치로 묶어 에지 GPU에서 병렬성을 활용, 단계당 지연을 감소시킵니다.
- STACKING 알고리즘 – 모델에 독립적인 저복잡도 최적화기로, 초기 단계가 최종 이미지 품질에 더 큰 영향을 미친다는 통찰을 이용해 몇 개의 디노이징 단계를 함께 배치할지 결정합니다.
- 생성‑전송 공동 최적화 – 배치 솔루션을 확장하여 동시 AIGC 요청들 사이에 무선 대역폭을 할당, 공유 지연 예산 하에서 평균 서비스 품질을 최대화합니다.
- 광범위한 시뮬레이션 – 기존 순차 디노이징 및 단순 대역폭 할당에 비해 품질이 최대 30 % 향상(FID/PSNR 기준)되고 지연이 20 % 감소함을 입증합니다.
방법론
-
문제 정의 – 저자들은 AIGC 서비스를 두 개의 결합된 단계로 모델링합니다:
- 에지 서버에서의 콘텐츠 생성: 확산 모델을 사용한 다중 디노이징 단계
- 무선 링크를 통한 콘텐츠 전송
목표는 전체 지연(생성 + 전송)이 사전 설정된 임계값 이하로 유지되면서 생성된 이미지의 평균 품질을 최대화하는 것입니다.
-
배치 디노이징 통찰 – 실험 프로파일링을 통해 디노이징 단계들을 그룹화하면 현대 GPU에서 병렬 실행이 가능하고, 초기 몇 단계가 최종 이미지에 불균형적으로 큰 영향을 미친다는 사실을 확인했습니다.
-
STACKING 알고리즘
- 전체 디노이징 단계 수 T와 지연 예산 D를 입력으로 받습니다.
- 반복적으로 배치 크기를 결정하며, 품질 민감도가 낮은 후반 단계에는 큰 배치를, 초기 단계에는 작은 배치를 할당합니다.
- 품질 함수(FID, PSNR 등)의 명시적 형태를 필요로 하지 않는 O(T) 시간의 단순 탐욕적 검색을 사용합니다.
-
대역폭 할당 – 최적 배치 스케줄이 고정되면 남은 문제는 볼록 자원 할당 문제로 축소됩니다: 동시에 진행되는 AIGC 세션들 사이에 가용 무선 대역폭을 분배하여 개별 지연 제약을 만족하면서 가중 품질 합을 최대화합니다. 표준 볼록 최적화 솔버(예: interior‑point)를 활용합니다.
결과 및 분석
| 지표 | 기준 (순차) | 단순 대역폭 분할 | 제안된 STACKING + 공동 할당 |
|---|---|---|---|
| 평균 이미지 품질 (FID ↓) | 45.2 | 43.8 | 31.7 |
| 평균 지연시간 (ms) | 210 | 190 | 165 |
| 계산 오버헤드 (CPU % per request) | 12 % | 10 % | 8 % |
- 품질 향상은 주로 초기 단계 배치를 줄여 가장 영향력 있는 디노이징 단계를 보존함으로써 얻어집니다.
- 지연 감소는 GPU 병렬 실행과 스마트한 대역폭 공유 덕분에 전체 서비스 시간을 목표값(예: 인터랙티브 AR을 위한 200 ms) 이하로 유지합니다.
- 알고리즘은 동시 사용자 수에 대해 선형적으로 확장되므로 밀집된 에지 배치에 적합합니다.
실무적 함의
- 에지 AI 플랫폼(예: NVIDIA Jetson, AMD Instinct)은 하드웨어 업그레이드 없이도 추가 처리량을 확보하기 위해 배치‑디노이징 커널을 통합할 수 있습니다.
- 모바일 앱 개발자는 실시간 AI 사진 필터, AR 오버레이, 혹은 온‑디바이스 콘텐츠 합성을 구축할 때 200 ms 미만의 응답 시간을 보장하는 에지 서버를 활용해 사용자 경험을 크게 향상시킬 수 있습니다.
- 네트워크 운영자는 MEC(다중 접근 에지 컴퓨팅) 오케스트레이션 레이어에 공동 할당 로직을 삽입해 현재 부하와 QoS 목표에 따라 AIGC 워크로드에 대한 무선 자원을 자동으로 조정할 수 있습니다.
- 비용 효율성 – 요청당 GPU 사용 시간을 줄임으로써 한 에지 노드가 더 많은 사용자를 서비스할 수 있어 AI 서비스의 CAPEX/OPEX를 낮출 수 있습니다.
제한점 및 향후 연구
- 본 연구는 이미지 확산 모델에 초점을 맞추었으며, 대규모 언어 모델이나 비디오 생성에 배치 디노이징을 적용하려면 다른 병렬화 전략이 필요할 수 있습니다.
- 채널 변동성(빠른 페이딩, 이동성)은 정적 대역폭 풀로 추상화했으며, 무작위 무선 동역학을 포함하면 할당 단계가 더욱 정교해질 수 있습니다.
- 실제 배포에서는 하드웨어별 프로파일링이 필요해 가정한 병렬 속도 향상이 다양한 에지 디바이스에서 유지되는지 검증해야 합니다.
- 향후 연구 방향으로는 런타임 품질 피드백에 기반한 적응형 배치 크기 조정 및 반복 요청에 대한 에지 캐싱과의 공동 최적화가 포함됩니다.
저자
- Jinghang Xu
- Kun Guo
- Wei Teng
- Chenxi Liu
- Wei Feng
논문 정보
- arXiv ID: 2511.19847v1
- 분류: cs.DC
- 발표일: 2025년 11월 25일
- PDF: Download PDF