[Paper] 현대 MoE 모델 및 하드웨어 시스템을 위한 Attention-FFN 분리의 과제 공개

발행: 3일 전 (2026년 2월 10일 오후 09:24 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.09721v1

Overview

이 논문은 현대 Mixture‑of‑Experts (MoE) 모델의 어텐션과 피드‑포워드 네트워크(FFN) 구성 요소를 하드웨어 자원에 걸쳐 분할하는 새로운 방법인 Attention‑FFN Disaggregation (AFD) 를 조사한다. 클래식 루프라인 모델을 통신 영역으로 확장함으로써, 저자들은 AFD가 전통적인 Expert Parallelism (EP) 접근법보다 실제로 언제 더 뛰어나고 언제 부족한지를 보여준다.

Key Contributions

확장된 Roofline 분석: 인터커넥트 대역폭, 연산 강도, 그리고 Hardware FLOPS Utilization (HFU)를 연결하는 통신 인식 Roofline 모델을 소개한다.
“데드 존” 식별: 일반적인 클러스터에서 FFN 인스턴스를 더 추가해도 HFU가 상승하지 않으며, 이는 작업 부하가 계산이 아니라 스케일‑아웃 대역폭에 의해 제한되기 때문이다.
불균형 정량화: AFD의 노드 수준 스케일링이 EP의 보다 유연한 배치별 전문가 할당보다 더 큰 로드 불균형 페널티를 겪는 것을 보여준다.
하드웨어‑모델 최적 지점: AFD가 EP보다 성능을 앞설 수 있는 조건(예: Superpod급 인터커넥트, 거친 입자 전문가, 낮은 희소도)을 정확히 짚어낸다.
실용적인 가이드: 엔지니어가 하드웨어 토폴로지와 모델 특성을 기반으로 AFD 채택 여부를 결정할 수 있는 의사결정 프레임워크를 제공한다.

방법론

모델링 레이어: 저자들은 고전적인 루프라인 모델에 통신 루프라인을 추가하여 전문가 활성화를 노드 간에 이동하는 비용을 포착합니다.
합성 벤치마크: 다양한 전문가 수, 희소성 및 세분성을 가진 MoE 워크로드 모음을 사용해, 일반 이더넷부터 고속 InfiniBand “Superpod” 설정에 이르는 다양한 클러스터 구성에서 실행합니다.
추적 메트릭:
- 산술 강도 (전송된 바이트당 FLOPs) – attention 경로와 FFN 경로에 대해 측정.
- 하드웨어 FLOPS 활용도 (HFU) – 실제 사용된 피크 연산량의 비율.
- 불균형 페널티 – 일부 노드가 작업을 일찍 마치고 다른 노드가 아직 전문가를 처리 중일 때 발생하는 추가 시간.
비교 실험: 각 워크로드를 AFD와 EP 두 방식으로 실행하되, 파라미터 총수를 동일하게 유지하여 분산 전략의 영향을 분리합니다.

결과 및 발견

Scenario	HFU (AFD) vs. HFU (EP)	Bandwidth Bottleneck?	Imbalance Penalty
표준 10‑GbE 클러스터, 세분화된 전문가	≈ 0.45 vs. 0.62	예 – FFN 트래픽이 링크를 포화시킴	↑ 15 %
슈퍼팟 (100 Gbps) 및 거친‑입자 전문가	0.78 vs. 0.71	아니오 – 대역폭 충분	↓ 5 %
높은 희소도 (≥ 80 %) 모든 하드웨어에서	HFU가 모두 감소하고, AFD는 이점을 잃음	예 – 전송당 유용한 데이터 감소	↑ 20 %

Dead Zone: FFN 인스턴스 수가 증가하면, 인터커넥트가 데이터를 충분히 빠르게 공급하지 못해 HFU가 정체됩니다; 연산자의 활성 계산 시간이 감소하고 지연 시간은 고정된 상태로 유지됩니다.
Imbalance: AFD의 정적 노드‑레벨 전문가 할당은 지연자를 초래하고, EP는 배치를 동적으로 재조정하여 유휴 시간을 감소시킵니다.
When AFD Wins: 매우 높은 인터커넥트 대역폭을 가진 시스템과 각 전문가가 상대적으로 큰 데이터 청크를 처리하는 모델(거친 입자, 낮은 희소도)에서만 AFD가 우세합니다.

실용적 함의

하드웨어 조달: 대규모 MoE 모델을 실행하려는 팀은 AFD를 활용하려면 인터커넥트 대역폭(예: 100 Gbps 이상 InfiniBand)을 우선시해야 합니다. 더 빠른 NIC에 투자하는 것이 GPU를 단순히 추가하는 것보다 더 큰 성능 향상을 가져올 수 있습니다.
모델 설계: 설계자는 AFD‑친화적인 하드웨어를 목표로 할 때 전문가들을 거칠게 설계할 수 있습니다(숨겨진 차원을 크게 하고 전문가 수를 줄임). 이는 약간의 희소성을 포기하고 더 나은 처리량을 얻는 트레이드오프입니다.
스케줄러 개선: 기존 클러스터 스케줄러는 논문의 불균형 메트릭을 통합하여 작업을 AFD‑최적화 노드 풀에 할당할지 EP로 되돌릴지를 결정할 수 있습니다.
비용‑편익 분석: 클라우드 제공업체는 “AFD‑ready” 인스턴스 유형(고속 패브릭 + 균형 잡힌 GPU‑대‑CPU 비율)을 제공함으로써 적합한 MoE 워크로드를 가진 고객에게 프리미엄 가격을 적용할 수 있습니다.
소프트웨어 스택: 프레임워크(예: PyTorch, TensorFlow)는 AFD 모드를 활성화하는 스위치를 제공할 수 있으며, 감지된 대역폭에 따라 적절한 통신 프리미티브를 자동으로 선택합니다.

제한 사항 및 향후 연구

벤치마크 범위: 실험은 제한된 MoE 구성에 초점을 맞추었으며, 수백억 파라미터 규모의 초대형 모델은 아직 테스트되지 않았습니다.
정적 전문가 배치: 현재 AFD 구현은 전문가와 노드 간 고정 매핑을 가정하고 있어 불균형을 악화시킵니다; 동적 배치 전략이 이를 완화할 수 있습니다.
에너지 고려사항: 본 연구는 전력 효율성을 평가하지 않았으며, 이는 대규모 배포에서 중요한 요소입니다.
향후 방향: 저자들은 AFD의 분산과 EP의 동적 배치를 결합한 하이브리드 방식을 탐구하고, 이통신 루프라인을 이종 클러스터(CPU‑GPU‑TPU 혼합)로 확장할 것을 제안합니다.

저자

Guowei Liu
Hongming Li
Yaning Guo
Yongxi Lyu
Mo Zhou
Yi Liu
Zhaogeng Li
Yanpeng Wang

논문 정보

arXiv ID: 2602.09721v1
Categories: cs.DC
Published: 2026년 2월 10일
PDF: PDF 다운로드

[Paper] 현대 MoE 모델 및 하드웨어 시스템을 위한 Attention-FFN 분리의 과제 공개

Overview

Key Contributions

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] OServe: 공간-시간 워크로드 오케스트레이션을 통한 LLM 서빙 가속화

[Paper] Min‑Sum 균일 커버리지 문제 by 자율 모바일 로봇

[Paper] 네트워크 아키텍처에 대한 Global Distributed Protocols의 구현 가능성

[Paper] AMD MI300A에서 FP8 매트릭스 코어, 비동기 실행 및 구조적 희소성에 대한 실행 중심 특성화