[Paper] HexiSeq: 이기종 하드웨어에서 LLM의 긴 컨텍스트 훈련 수용

발행: 3일 전 (2026년 5월 8일 PM 07:41 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2605.07569v1

개요

수백만 토큰에 이르는 매우 긴 컨텍스트 윈도우를 가진 대규모 언어 모델(LLM) 훈련은 차세대 AI 애플리케이션에 필수적이 되고 있습니다. 기존 시스템은 Context Parallelism (CP) 및 **Head Parallelism (HP)**에 의존하지만 동일한 GPU 모델, 동일한 메모리, 균일한 인터커넥트 대역폭을 가진 동질적인 GPU 군집을 전제로 합니다. HexiSeq는 이러한 가정을 깨고, 예를 들어 H100과 A100 GPU를 혼합하고 네트워크 연결이 고르지 않은 이기종 클러스터에서도 CP‑HP 훈련을 가능하게 합니다. 논문은 스마트한 워크로드 배치를 통해 개발자들이 새롭고 동질적인 랙을 구매하지 않고도 기존의 비균일 하드웨어에서 더 높은 처리량을 끌어낼 수 있음을 보여줍니다.

주요 기여

비대칭 CP‑HP 파티셔닝: 고전적인 CP와 HP 스킴을 확장하여 서로 다른 연산, 메모리, 대역폭을 가진 디바이스 간에 시퀀스 샤드와 어텐션 헤드를 임의로 분할할 수 있게 함.
정형 최적화 모델: 이기종 CP‑HP 할당을 GPU당 메모리 제한, 연산 용량, 통신 비용을 고려한 제약 최적화 문제로 정의함.
계층형 스케줄러: 전역 거친‑입자 배치와 지역 세밀‑입자 정제를 결합한 효율적인 2단계 스케줄러를 도입하여 수십 종류의 GPU가 있는 클러스터에서도 밀리초 단위로 거의 최적에 가까운 스케줄을 찾음.
포괄적 평가: 실제 혼합 H100–A100 클러스터와 대규모 시뮬레이션 스위트(32–128 GPU, 최대 4가지 GPU 모델)에서 HexiSeq을 벤치마크함. 동질 기반 대비 평균 처리량 향상 1.11×–1.36×, 최고 향상 **1.72×**를 보임.
FLOP‑동등성: HexiSeq으로 오케스트레이션된 이기종 클러스터가 최적 동질 구성의 몇 퍼센트 이내의 처리량을 달성함을 입증, “혼합 하드웨어”가 성능 페널티가 아님을 증명함.

방법론

리소스 모델링 – 각 GPU는 세 가지 수치로 설명됩니다: 연산 처리량 (TFLOPs), 메모리 용량 (GB), 네트워크 대역폭 (GB/s).
워크로드 정의 – 긴 컨텍스트 LLM 학습 단계는 다음으로 분할됩니다:
- 시퀀스 샤드 (입력 토큰 시퀀스의 청크) – CP용.
- 어텐션 헤드 – HP용.
  두 차원은 독립적으로 파티셔닝할 수 있습니다.
최적화 공식화 – 목표는 전체 학습 처리량(초당 처리 토큰 수)을 최대화하면서 다음을 만족하는 것입니다:
- GPU당 메모리 제약(샤드 + 헤드 데이터가 들어가야 함).
- 연산 제약(TFLOP 한도를 초과하지 않도록).
- 통신 제약(메시를 통한 데이터 전송이 링크 대역폭을 준수).
  이를 통해 혼합 정수 선형 프로그램(MILP)이 도출됩니다.
계층형 스케줄러 – MILP를 정확히 푸는 것은 대규모 클러스터에 너무 느립니다. 따라서 HexiSeq은:
- Stage 1 (글로벌): 탐욕적 휴리스틱을 사용해 큰 “청크”의 샤드/헤드를 유사한 GPU 그룹에 할당합니다.
- Stage 2 (로컬): 가벼운 정수 솔버로 각 그룹을 정제하여 남은 제약을 만족하도록 정확한 분할을 미세 조정합니다.
  스케줄러는 128‑GPU 클러스터에서 < 0.5 초 안에 실행됩니다.
구현 – 기존 CP/HP 학습 스택(예: DeepSpeed 또는 Megatron‑LM) 위에 구축되며, HexiSeq은 텐서 배치 호출을 가로채고 최적화기가 계산한 스케줄을 삽입하는 얇은 추상화 레이어를 추가합니다.

결과 및 발견

Setup	Model Size	Context Length	Throughput (tokens/s)	Speed‑up vs. Homogeneous Baseline
Mixed H100 + A100 (8 + 8 GPUs)	30 B	512 k	1.19× higher	—
Simulated 32‑GPU (4 models)	70 B	1 M	1.36× average, 1.72× peak	—
3 B‑70 B range, 128‑GPU cluster	Various	Up to 1 M	1.11×–1.19× on real hardware	—

Memory Utilization: HexiSeq는 각 GPU의 메모리를 용량의 95 % 이내로 유지하여 이기종 메쉬에서 흔히 발생하는 메모리 부족 오류를 방지합니다.
Communication Overhead: 대용량 샤드와 같은 무거운 데이터 전송을 고대역폭 링크와 정렬시켜, 스케줄러가 단순 라운드‑로빈 배치에 비해 교차 모델 트래픽을 약 30 % 감소시킵니다.
Scalability: 처리량 향상은 GPU 종류가 다양해질수록 증가하며, 이기종성이 클수록 상대적인 이점이 커집니다.
Parity with Homogeneous FLOP‑Match: 전체 FLOP을 동일하게 맞출 경우(예: A100 두 개를 H100 하나로 교체), HexiSeq의 처리량은 최적의 동질 구성에 비해 3 % 이내의 차이로 거의 동일함을 확인했습니다.

Practical Implications

Cost‑Effective Scaling: 비용 효율적 확장: 기업은 기존 GPU(A100, V100)를 최신 H100과 함께 재활용하면서도 학습 속도를 희생하지 않아 기존 하드웨어의 ROI를 확대할 수 있습니다.
Cloud Flexibility: 클라우드 유연성: 인스턴스 유형이 다양한 다중 테넌트 클라우드 환경에서 HexiSeq는 이질적인 팟을 자동으로 결합하여 맞춤형 VM 선택 스크립트의 필요성을 줄입니다.
Long‑Context Applications: 장기 컨텍스트 애플리케이션: 검색 기반 생성, 코드 자동완성, 과학적 추론 모델 등 백만 토큰 윈도우가 필요한 연구자들은 이제 전용 동질 슈퍼클러스터를 구축하지 않고도 대규모 학습이 가능합니다.
Tooling Integration: 툴링 통합: HexiSeq가 스케줄러 레이어로 작동하기 때문에, PyTorch, DeepSpeed, Megatron‑LM 등 인기 있는 LLM 학습 파이프라인에 최소한의 코드 변경만으로 삽입할 수 있습니다—각 GPU 사양을 기술한 구성 파일 하나만 있으면 됩니다.
Energy & Utilization: 에너지 및 활용도: 작업 부하를 가장 성능이 좋은 GPU에 맞춤으로써 약한 장치의 유휴 전력을 감소시켜 보다 친환경적인 학습을 실현합니다.

제한 사항 및 향후 작업

매우 큰 메시에서의 스케줄러 오버헤드: 최대 128 GPU에서는 1초 미만이지만, 수천 개 GPU에 대해서는 계층적 접근 방식에 추가적인 스케일링 기법(예: 분산 스케줄링)이 필요할 수 있습니다.
정적 리소스 프로파일: HexiSeq은 정적인 연산/메모리/대역폭 수치를 가정합니다; 동적인 변동(열 스로틀링, 네트워크 혼잡)은 아직 모델링되지 않았습니다.
CP & HP에 한정: 텐서 병렬성, 파이프라인 병렬성 등 다른 병렬화 전략은 다루지 않으며, 이를 통합하면 매우 큰 모델에 대해 추가적인 성능 향상을 기대할 수 있습니다.
내결함성: 현재 프로토타입은 학습 중 GPU 장애를 처리하지 않으며, 향후 작업에서는 체크포인트 인식 재균형을 도입할 수 있습니다.
다양한 벤치마크: 평가가 트랜스포머 기반 LLM에 초점이 맞춰져 있어, 비전‑언어 혹은 멀티모달 모델에 HexiSeq을 적용하는 것은 아직 미해결 과제입니다.

핵심 요약: 스마트 스케줄러를 활용하면 이기종 GPU 클러스터가 장기 컨텍스트 LLM 학습의 병목이 되지 않음을 보여주며, 보다 유연하고 비용 효율적인 AI 개발 파이프라인의 문을 열어줍니다.

저자

Yan Liang
Youhe Jiang
Ran Yan
Binhang Yuan
Wei Wang
Chuan Wu

논문 정보

arXiv ID: 2605.07569v1
분류: cs.DC
출판일: 2026년 5월 8일
PDF: Download PDF

[Paper] HexiSeq: 이기종 하드웨어에서 LLM의 긴 컨텍스트 훈련 수용

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Cerebras 웨이퍼 스케일 엔진에서의 스텐실 연산

[Paper] Tenstorrent Wormhole에서 스텐실 연산

[Paper] RcLLM: Beyond-Prefix KV Caching을 통한 생성형 추천 가속화

다음 DevOps 인터뷰가 더 쉬워졌습니다