[Paper] Untied Ulysses: 메모리 효율적인 컨텍스트 병렬 처리 via Headwise Chunking

발행: 3일 전 (2026년 2월 25일 오전 03:54 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2602.21196v1

개요

이 논문은 UPipe을 소개한다. 이는 전체 레이어가 아니라 헤드당 어텐션 연산을 슬라이스하는 새로운 컨텍스트‑병렬화 전략이다. 이렇게 하면 자체 어텐션에 필요한 활성화 메모리를 크게 줄여, 개발자들이 처리량을 희생하지 않고 훨씬 더 긴 시퀀스에서 대규모 트랜스포머를 학습할 수 있다.

Key Contributions

Headwise Chunking: 개별 헤드 수준에서 어텐션 매트릭스를 세밀하게 분할하여 메모리 사용량을 크게 감소시킴.
Memory Savings: 32‑billion‑parameter 모델에 대해 중간 텐서 메모리를 최대 87.5 % 절감.
Scalable Throughput: Ring Attention 및 DeepSpeed Ulysses와 같은 기존 컨텍스트‑패럴렐 방법과 비교해도 훈련 속도를 유지.
Record‑setting Context Length: 단일 8‑GPU H100 노드에서 Llama‑3‑8B를 5 million‑token 컨텍스트로 훈련—이전 작업 대비 >25 % 향상.
Simplicity: 코드 변경을 최소화하고 특수 하드웨어 기능이 필요 없이 구현.

Methodology

전통적인 컨텍스트 병렬성은 긴 시퀀스를 여러 GPU에 나누어 처리하지만, 각 GPU는 여전히 자신의 슬라이스에 대한 전체 어텐션 행렬을 보관해야 하므로 메모리가 빠르게 소진됩니다. UPipe는 분할의 세분성을 다음과 같이 변경합니다:

Headwise Partitioning: 각 어텐션 헤드의 쿼리‑키‑밸류 (QKV) 텐서를 작은 청크 (예: 1 k‑토큰 블록) 로 나눕니다.
Local Computation: GPU는 할당된 청크에 대해서만 어텐션 스코어를 계산하고, 즉시 중간 결과를 폐기합니다.
Streaming Reduction: 부분 결과들을 링 형태의 통신 패턴으로 GPU 간에 합산하여, 어느 단일 장치에서도 전체 행렬을 실제로 생성하지 않고 전체 어텐션 출력을 재구성합니다.
Overlap with Back‑propagation: 청크 단위의 순전파는 그래디언트 계산과 파이프라인화되어 GPU를 지속적으로 사용하게 하며 전체 처리량을 유지합니다.

이 접근 방식은 기존 “Ring Attention” 통신 패턴을 기반으로 하며, 헤드 수준 청크 처리를 조정하는 가벼운 스케줄러를 추가함으로써 트랜스포머 커널에 최소한의 수정만을 요구합니다.

결과 및 발견

모델 / 설정	최대 컨텍스트 (토큰)	메모리 감소	학습 처리량
32B Transformer (Ring Attention)	~1.2 M	baseline	1.0×
32B Transformer (UPipe)	5 M	≈ 87 %	0.96×
Llama‑3‑8B (8 × H100)	5 M	≈ 80 %	DeepSpeed Ulysses와 비교 가능

메모리: 어텐션 활성화 footprint가 레이어당 수 GB에서 1 GB 이하로 감소하여 “활성화 메모리 장벽”을 사실상 깨뜨립니다.
속도: 추가 통신 단계에도 불구하고 전체 학습 속도는 기존 가장 빠른 컨텍스트‑패럴렐 방법보다 4 % 이내로 유지됩니다.
확장성: 이 기술은 GPU 수에 따라 선형적으로 확장되어 단일 노드와 다중 노드 클러스터 모두에 실용적입니다.

실용적 시사점

Long‑Document NLP: 개발자들은 이제 슬라이딩‑윈도우 기법을 사용하지 않고 전체 책, 법률 계약서, 혹은 코드베이스 전체에 대해 모델을 파인‑튜닝하거나 사전 학습할 수 있습니다.
Retrieval‑Augmented Generation (RAG): 더 큰 컨텍스트 윈도우는 풍부한 검색 컨텍스트를 가능하게 하여 LLM‑기반 어시스턴트의 답변 관련성을 향상시킵니다.
Cost‑Effective Scaling: 팀은 더 큰 클러스터에 투자하는 대신 기존 하드웨어(예: 단일 8‑GPU H100 노드)에서 컨텍스트 길이 한계를 확장할 수 있습니다.
Framework Integration: UPipe가 기존 어텐션 커널을 얇게 감싸는 래퍼 역할을 하기 때문에 PyTorch, JAX, 또는 DeepSpeed 파이프라인에 최소한의 엔지니어링 노력으로 추가할 수 있습니다.

제한 사항 및 향후 작업

통신 오버헤드: 다소 적지만, 추가적인 all‑reduce 단계는 매우 높은 지연 시간의 인터커넥트(예: 다중 지역 클러스터)에서 눈에 띕니다.
청크 크기 튜닝: 최적의 청크 세분화는 모델 크기와 하드웨어에 따라 달라지며, 자동 튜닝은 사용자에게 맡겨져 있습니다.
비‑Transformer 아키텍처: 이 방법은 자기‑주의에 특화되어 있어, 컨볼루션이나 mixture‑of‑expert 레이어로 확장하는 것은 아직 탐구되지 않았습니다.
향후 방향: 저자들은 헤드별 청크와 활성화 오프로드 또는 파이프라인 병렬화를 결합하여 컨텍스트 길이를 10 M 토큰 이상으로 늘리고 통신 부하를 더욱 감소시키는 방안을 제시하고 있습니다.

저자

Ravi Ghadia
Maksim Abraham
Sergei Vorobyov
Max Ryabinin

논문 정보

arXiv ID: 2602.21196v1
Categories: cs.LG, cs.DC
Published: 2026년 2월 24일
PDF: PDF 다운로드

[Paper] Untied Ulysses: 메모리 효율적인 컨텍스트 병렬 처리 via Headwise Chunking

개요

Key Contributions

Methodology

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 앵커링을 통한 모델 합의

[Paper] SeeThrough3D: 폐색 인식 3D 제어를 이용한 텍스트-이미지 생성

[Paper] SOTAlign: 최적 수송을 통한 반감독식 단일모드 비전 및 언어 모델 정렬

[Paper] FlashOptim: 메모리 효율적인 학습을 위한 옵티마이저