[Paper] AdaSplash-2: 더 빠른 미분 가능한 희소 어텐션

발행: 3주 전 (2026년 4월 17일 AM 01:03 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.15180v1

개요

논문 AdaSplash‑2는 현대 트랜스포머 모델에서 가장 큰 문제점 중 하나인, 긴 시퀀스를 처리할 때 발생하는 소프트맥스 기반 어텐션 메커니즘의 2차 메모리 및 연산 비용을 해결합니다. 차별화 가능한 희소 α‑entmax 어텐션을 크게 가속화함으로써, 저자들은 가장 관련성 높은 어텐션 가중치만을 유지하는 모델을 학습하고 배포하는 것을 실용적으로 만들었으며, 정확도를 희생하지 않으면서도 높은 효율성을 달성합니다.

주요 기여

히스토그램 기반 τ 초기화: 경량화된 온칩 히스토그램이 어텐션 점수를 수집하여 α‑entmax 정규화기의 정확한 초기값을 제공하고, 평균적으로 루트 찾기 반복 횟수를 1~2회로 줄입니다.
AdaSplash‑2 알고리즘: 히스토그램 초기화와 희소성을 인식하는 GPU 커널을 결합하여 값이 0인 블록을 건너뛰고, 오버헤드를 최소화합니다.
FlashAttention‑2와 성능 동등: 희소성이 ~60 %를 초과할 때(긴 컨텍스트 상황에서 흔함), AdaSplash‑2는 최신 밀집 어텐션 구현과 동등하거나 오히려 능가합니다.
하위 작업에 대한 실증 검증: AdaSplash‑2로 학습된 모델은 짧은 컨텍스트에서 소프트맥스 기준선과 비슷한 성능을 보이며, 긴 컨텍스트 벤치마크에서는 큰 향상(퍼플렉시티 최대 ~15 % 감소)을 나타냅니다.
오픈소스 구현: 저자들은 기존 PyTorch/Transformers 파이프라인에 바로 적용할 수 있는 CUDA 기반 라이브러리를 공개합니다.

방법론

α‑entmax attention은 softmax 정규화자를 α > 1 로 매개변수화된 희소성을 유도하는 함수로 교체합니다. 출력은 많은 항목이 정확히 0이 되는 확률 분포이며, 정규화 상수 τ를 계산하려면 근 찾기 문제를 풀어야 합니다.
AdaSplash‑2의 히스토그램 초기화:
- 원시 어텐션 점수(QKᵀ 행렬)를 스캔하면서 커널은 빠른 SRAM에 저장되는 거친 히스토그램(예: 256 빈)을 구축합니다.
- 히스토그램은 점수들의 누적 분포를 근사하여, 알고리즘이 τ를 초기 추정값 없이 닫힌 형태의 식으로 추정할 수 있게 합니다.
반복적 정제: 히스토그램 기반 추정값을 사용하면, 근 찾기 루프가 일반적인 5–10회 반복 대신 1–2회의 뉴턴 반복으로 수렴합니다.
희소 인식 GPU 커널: τ가 알려지면, 커널은 entmax 임계값 이하의 항목을 마스크하고 남은 값을 밀집 블록으로 묶어 해당 블록만 처리합니다. 0인 블록은 완전히 건너뛰어 메모리 대역폭과 연산을 절감합니다.
학습 파이프라인: 저자들은 AdaSplash‑2를 표준 트랜스포머 코드(예: HuggingFace의 BertModel)에 삽입하고, 시퀀스 길이가 최대 16 k 토큰인 언어 모델링 및 요약 데이터셋으로 학습합니다.

Results & Findings

설정	기준 (FlashAttention‑2)	AdaSplash‑2	속도 향상 (비율)	희소도 수준
4 k 토큰, 70 % 희소도	1.00× (baseline)	0.94×	6 % faster	70 %
8 k 토큰, 80 % 희소도	1.00×	0.88×	12 % faster	80 %
16 k 토큰, 85 % 희소도	1.00×	0.81×	19 % faster	85 %
언어 모델링 (퍼플렉시티) – 짧은 컨텍스트 (512)	12.3	12.4	–	–
언어 모델링 – 긴 컨텍스트 (8 k)	15.8	13.6	–	–

학습 시간: 중간‑높은 희소도에서는 단계당 실제 시간(벽시계 시간)이 밀집 FlashAttention‑2와 동등하거나 더 빠릅니다.
모델 품질: 짧은 시퀀스에서는 성능 저하가 없으며, 장거리 작업에서는 눈에 띄는 개선이 나타나 희소도 패턴이 가장 중요한 종속성을 보존함을 확인했습니다.
메모리 사용량: 85 % 희소도에서 피크 활성화 메모리가 약 40 % 감소하여 동일한 GPU에서 더 큰 배치 크기나 더 긴 시퀀스를 처리할 수 있습니다.

실용적 의미

긴 컨텍스트 애플리케이션: 검색‑보강 생성, 문서‑레벨 요약, 코드‑완성 도구 등이 수만 개 토큰을 가진 트랜스포머 모델을 하드웨어 업그레이드 없이 학습할 수 있게 됩니다.
비용 절감: 메모리 대역폭 및 연산량 감소가 직접적으로 클라우드 GPU 비용 감소로 이어지며, 특히 이미 높은 어텐션 희소성을 보이는 워크로드(예: 계층형 또는 슬라이딩‑윈도우 모델)에서 효과적입니다.
드롭‑인 교체: AdaSplash‑2가 표준 nn.MultiheadAttention과 동일한 API를 따르기 때문에, 개발자는 단일 모듈 임포트를 교체함으로써 희소 어텐션을 손쉽게 실험할 수 있습니다.
기존 최적화와의 호환성: 이 방법은 혼합 정밀도 학습, 그래디언트 체크포인팅, 기타 속도 향상 트릭과 함께 작동하여 성능 중심 스택에 다목적으로 추가할 수 있습니다.
엣지 배포 가능성: SRAM‑내부 히스토그램 및 블록‑스키핑 로직은 메모리가 제한된 맞춤 ASIC이나 모바일 GPU에 매우 적합합니다.

제한 사항 및 향후 작업

희소성 의존성: 주의 패턴이 조밀해지면 (< 50 % 희소성) 속도 이점이 감소합니다. 이러한 경우에는 전통적인 밀집 커널이 여전히 선호됩니다.
히스토그램 세분화 트레이드‑오프: 더 거친 히스토그램은 SRAM 사용량을 줄이지만 약간 더 많은 뉴턴 반복을 초래할 수 있습니다; 하드웨어마다 이 하이퍼파라미터 조정이 필요할 수 있습니다.
멀티‑쿼리/멀티‑키 설정으로의 확장: 현재 구현은 헤드당 단일 QKᵀ 행렬을 가정합니다; 보다 이색적인 어텐션 변형(예: 멀티‑쿼리 어텐션)으로의 적용은 향후 연구 과제로 남겨둡니다.
수렴에 대한 이론적 분석: 경험적 반복 횟수는 적지만, 히스토그램 오류를 고려한 뉴턴 단계 수에 대한 형식적인 경계가 있으면 방법의 보장을 강화할 수 있습니다.

전반적으로 AdaSplash‑2는 미분 가능한 희소 어텐션이 빠르고 정확할 수 있음을 보여주며, 프로덕션 환경에서 확장 가능한 장기 컨텍스트 트랜스포머 모델의 길을 열어줍니다.

저자

Nuno Gonçalves
Hugo Pitorro
Vlad Niculae
Edoardo Ponti
Lei Li
Andre Martins
Marcos Treviso

논문 정보

arXiv ID: 2604.15180v1
분류: cs.LG, cs.CL
출판일: 2026년 4월 16일
PDF: PDF 다운로드

[Paper] AdaSplash-2: 더 빠른 미분 가능한 희소 어텐션

개요

주요 기여

방법론

Results & Findings

실용적 의미

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 인사이트를 활용한 비공식 정리 증명을 위한 추론 학습

[Paper] VEFX-Bench: 일반 비디오 편집 및 시각 효과를 위한 포괄적 벤치마크

[Paper] 벤치마킹에서 추론으로: 이중 측면, 베트남 법률 텍스트에 대한 LLM의 대규모 평가

[Paper] Gradient Fingerprints를 활용한 Reward Hacking 탐지 및 억제