[Paper] Untied Ulysses: 메모리 효율적인 컨텍스트 병렬 처리 via Headwise Chunking

발행: (2026년 2월 25일 오전 03:54 GMT+9)
7 분 소요
원문: arXiv

Source: arXiv - 2602.21196v1

개요

이 논문은 UPipe을 소개한다. 이는 전체 레이어가 아니라 헤드당 어텐션 연산을 슬라이스하는 새로운 컨텍스트‑병렬화 전략이다. 이렇게 하면 자체 어텐션에 필요한 활성화 메모리를 크게 줄여, 개발자들이 처리량을 희생하지 않고 훨씬 더 긴 시퀀스에서 대규모 트랜스포머를 학습할 수 있다.

Key Contributions

  • Headwise Chunking: 개별 헤드 수준에서 어텐션 매트릭스를 세밀하게 분할하여 메모리 사용량을 크게 감소시킴.
  • Memory Savings: 32‑billion‑parameter 모델에 대해 중간 텐서 메모리를 최대 87.5 % 절감.
  • Scalable Throughput: Ring Attention 및 DeepSpeed Ulysses와 같은 기존 컨텍스트‑패럴렐 방법과 비교해도 훈련 속도를 유지.
  • Record‑setting Context Length: 단일 8‑GPU H100 노드에서 Llama‑3‑8B를 5 million‑token 컨텍스트로 훈련—이전 작업 대비 >25 % 향상.
  • Simplicity: 코드 변경을 최소화하고 특수 하드웨어 기능이 필요 없이 구현.

Methodology

전통적인 컨텍스트 병렬성은 긴 시퀀스를 여러 GPU에 나누어 처리하지만, 각 GPU는 여전히 자신의 슬라이스에 대한 전체 어텐션 행렬을 보관해야 하므로 메모리가 빠르게 소진됩니다. UPipe는 분할의 세분성을 다음과 같이 변경합니다:

  1. Headwise Partitioning: 각 어텐션 헤드의 쿼리‑키‑밸류 (QKV) 텐서를 작은 청크 (예: 1 k‑토큰 블록) 로 나눕니다.
  2. Local Computation: GPU는 할당된 청크에 대해서만 어텐션 스코어를 계산하고, 즉시 중간 결과를 폐기합니다.
  3. Streaming Reduction: 부분 결과들을 링 형태의 통신 패턴으로 GPU 간에 합산하여, 어느 단일 장치에서도 전체 행렬을 실제로 생성하지 않고 전체 어텐션 출력을 재구성합니다.
  4. Overlap with Back‑propagation: 청크 단위의 순전파는 그래디언트 계산과 파이프라인화되어 GPU를 지속적으로 사용하게 하며 전체 처리량을 유지합니다.

이 접근 방식은 기존 “Ring Attention” 통신 패턴을 기반으로 하며, 헤드 수준 청크 처리를 조정하는 가벼운 스케줄러를 추가함으로써 트랜스포머 커널에 최소한의 수정만을 요구합니다.

결과 및 발견

모델 / 설정최대 컨텍스트 (토큰)메모리 감소학습 처리량
32B Transformer (Ring Attention)~1.2 Mbaseline1.0×
32B Transformer (UPipe)5 M≈ 87 %0.96×
Llama‑3‑8B (8 × H100)5 M≈ 80 %DeepSpeed Ulysses와 비교 가능
  • 메모리: 어텐션 활성화 footprint가 레이어당 수 GB에서 1 GB 이하로 감소하여 “활성화 메모리 장벽”을 사실상 깨뜨립니다.
  • 속도: 추가 통신 단계에도 불구하고 전체 학습 속도는 기존 가장 빠른 컨텍스트‑패럴렐 방법보다 4 % 이내로 유지됩니다.
  • 확장성: 이 기술은 GPU 수에 따라 선형적으로 확장되어 단일 노드와 다중 노드 클러스터 모두에 실용적입니다.

실용적 시사점

  • Long‑Document NLP: 개발자들은 이제 슬라이딩‑윈도우 기법을 사용하지 않고 전체 책, 법률 계약서, 혹은 코드베이스 전체에 대해 모델을 파인‑튜닝하거나 사전 학습할 수 있습니다.
  • Retrieval‑Augmented Generation (RAG): 더 큰 컨텍스트 윈도우는 풍부한 검색 컨텍스트를 가능하게 하여 LLM‑기반 어시스턴트의 답변 관련성을 향상시킵니다.
  • Cost‑Effective Scaling: 팀은 더 큰 클러스터에 투자하는 대신 기존 하드웨어(예: 단일 8‑GPU H100 노드)에서 컨텍스트 길이 한계를 확장할 수 있습니다.
  • Framework Integration: UPipe가 기존 어텐션 커널을 얇게 감싸는 래퍼 역할을 하기 때문에 PyTorch, JAX, 또는 DeepSpeed 파이프라인에 최소한의 엔지니어링 노력으로 추가할 수 있습니다.

제한 사항 및 향후 작업

  • 통신 오버헤드: 다소 적지만, 추가적인 all‑reduce 단계는 매우 높은 지연 시간의 인터커넥트(예: 다중 지역 클러스터)에서 눈에 띕니다.
  • 청크 크기 튜닝: 최적의 청크 세분화는 모델 크기와 하드웨어에 따라 달라지며, 자동 튜닝은 사용자에게 맡겨져 있습니다.
  • 비‑Transformer 아키텍처: 이 방법은 자기‑주의에 특화되어 있어, 컨볼루션이나 mixture‑of‑expert 레이어로 확장하는 것은 아직 탐구되지 않았습니다.
  • 향후 방향: 저자들은 헤드별 청크와 활성화 오프로드 또는 파이프라인 병렬화를 결합하여 컨텍스트 길이를 10 M 토큰 이상으로 늘리고 통신 부하를 더욱 감소시키는 방안을 제시하고 있습니다.

저자

  • Ravi Ghadia
  • Maksim Abraham
  • Sergei Vorobyov
  • Max Ryabinin

논문 정보

  • arXiv ID: 2602.21196v1
  • Categories: cs.LG, cs.DC
  • Published: 2026년 2월 24일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 앵커링을 통한 모델 합의

수많은 라인들이 모델 불일치를 제어하는 것을 목표로 합니다 — 두 머신러닝 모델이 예측에서 얼마나 서로 다른지를 나타냅니다. 우리는 간단하고 stan...