[Paper] AdaSplash-2: 더 빠른 미분 가능한 희소 어텐션

발행: (2026년 4월 17일 AM 01:03 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.15180v1

개요

논문 AdaSplash‑2는 현대 트랜스포머 모델에서 가장 큰 문제점 중 하나인, 긴 시퀀스를 처리할 때 발생하는 소프트맥스 기반 어텐션 메커니즘의 2차 메모리 및 연산 비용을 해결합니다. 차별화 가능한 희소 α‑entmax 어텐션을 크게 가속화함으로써, 저자들은 가장 관련성 높은 어텐션 가중치만을 유지하는 모델을 학습하고 배포하는 것을 실용적으로 만들었으며, 정확도를 희생하지 않으면서도 높은 효율성을 달성합니다.

주요 기여

  • 히스토그램 기반 τ 초기화: 경량화된 온칩 히스토그램이 어텐션 점수를 수집하여 α‑entmax 정규화기의 정확한 초기값을 제공하고, 평균적으로 루트 찾기 반복 횟수를 1~2회로 줄입니다.
  • AdaSplash‑2 알고리즘: 히스토그램 초기화와 희소성을 인식하는 GPU 커널을 결합하여 값이 0인 블록을 건너뛰고, 오버헤드를 최소화합니다.
  • FlashAttention‑2와 성능 동등: 희소성이 ~60 %를 초과할 때(긴 컨텍스트 상황에서 흔함), AdaSplash‑2는 최신 밀집 어텐션 구현과 동등하거나 오히려 능가합니다.
  • 하위 작업에 대한 실증 검증: AdaSplash‑2로 학습된 모델은 짧은 컨텍스트에서 소프트맥스 기준선과 비슷한 성능을 보이며, 긴 컨텍스트 벤치마크에서는 큰 향상(퍼플렉시티 최대 ~15 % 감소)을 나타냅니다.
  • 오픈소스 구현: 저자들은 기존 PyTorch/Transformers 파이프라인에 바로 적용할 수 있는 CUDA 기반 라이브러리를 공개합니다.

방법론

  1. α‑entmax attention은 softmax 정규화자를 α > 1 로 매개변수화된 희소성을 유도하는 함수로 교체합니다. 출력은 많은 항목이 정확히 0이 되는 확률 분포이며, 정규화 상수 τ를 계산하려면 근 찾기 문제를 풀어야 합니다.
  2. AdaSplash‑2의 히스토그램 초기화:
    • 원시 어텐션 점수(QKᵀ 행렬)를 스캔하면서 커널은 빠른 SRAM에 저장되는 거친 히스토그램(예: 256 빈)을 구축합니다.
    • 히스토그램은 점수들의 누적 분포를 근사하여, 알고리즘이 τ를 초기 추정값 없이 닫힌 형태의 식으로 추정할 수 있게 합니다.
  3. 반복적 정제: 히스토그램 기반 추정값을 사용하면, 근 찾기 루프가 일반적인 5–10회 반복 대신 1–2회의 뉴턴 반복으로 수렴합니다.
  4. 희소 인식 GPU 커널: τ가 알려지면, 커널은 entmax 임계값 이하의 항목을 마스크하고 남은 값을 밀집 블록으로 묶어 해당 블록만 처리합니다. 0인 블록은 완전히 건너뛰어 메모리 대역폭과 연산을 절감합니다.
  5. 학습 파이프라인: 저자들은 AdaSplash‑2를 표준 트랜스포머 코드(예: HuggingFace의 BertModel)에 삽입하고, 시퀀스 길이가 최대 16 k 토큰인 언어 모델링 및 요약 데이터셋으로 학습합니다.

Results & Findings

설정기준 (FlashAttention‑2)AdaSplash‑2속도 향상 (비율)희소도 수준
4 k 토큰, 70 % 희소도1.00× (baseline)0.94×6 % faster70 %
8 k 토큰, 80 % 희소도1.00×0.88×12 % faster80 %
16 k 토큰, 85 % 희소도1.00×0.81×19 % faster85 %
언어 모델링 (퍼플렉시티) – 짧은 컨텍스트 (512)12.312.4
언어 모델링 – 긴 컨텍스트 (8 k)15.813.6
  • 학습 시간: 중간‑높은 희소도에서는 단계당 실제 시간(벽시계 시간)이 밀집 FlashAttention‑2와 동등하거나 더 빠릅니다.
  • 모델 품질: 짧은 시퀀스에서는 성능 저하가 없으며, 장거리 작업에서는 눈에 띄는 개선이 나타나 희소도 패턴이 가장 중요한 종속성을 보존함을 확인했습니다.
  • 메모리 사용량: 85 % 희소도에서 피크 활성화 메모리가 약 40 % 감소하여 동일한 GPU에서 더 큰 배치 크기나 더 긴 시퀀스를 처리할 수 있습니다.

실용적 의미

  • 긴 컨텍스트 애플리케이션: 검색‑보강 생성, 문서‑레벨 요약, 코드‑완성 도구 등이 수만 개 토큰을 가진 트랜스포머 모델을 하드웨어 업그레이드 없이 학습할 수 있게 됩니다.
  • 비용 절감: 메모리 대역폭 및 연산량 감소가 직접적으로 클라우드 GPU 비용 감소로 이어지며, 특히 이미 높은 어텐션 희소성을 보이는 워크로드(예: 계층형 또는 슬라이딩‑윈도우 모델)에서 효과적입니다.
  • 드롭‑인 교체: AdaSplash‑2가 표준 nn.MultiheadAttention과 동일한 API를 따르기 때문에, 개발자는 단일 모듈 임포트를 교체함으로써 희소 어텐션을 손쉽게 실험할 수 있습니다.
  • 기존 최적화와의 호환성: 이 방법은 혼합 정밀도 학습, 그래디언트 체크포인팅, 기타 속도 향상 트릭과 함께 작동하여 성능 중심 스택에 다목적으로 추가할 수 있습니다.
  • 엣지 배포 가능성: SRAM‑내부 히스토그램 및 블록‑스키핑 로직은 메모리가 제한된 맞춤 ASIC이나 모바일 GPU에 매우 적합합니다.

제한 사항 및 향후 작업

  • 희소성 의존성: 주의 패턴이 조밀해지면 (< 50 % 희소성) 속도 이점이 감소합니다. 이러한 경우에는 전통적인 밀집 커널이 여전히 선호됩니다.
  • 히스토그램 세분화 트레이드‑오프: 더 거친 히스토그램은 SRAM 사용량을 줄이지만 약간 더 많은 뉴턴 반복을 초래할 수 있습니다; 하드웨어마다 이 하이퍼파라미터 조정이 필요할 수 있습니다.
  • 멀티‑쿼리/멀티‑키 설정으로의 확장: 현재 구현은 헤드당 단일 QKᵀ 행렬을 가정합니다; 보다 이색적인 어텐션 변형(예: 멀티‑쿼리 어텐션)으로의 적용은 향후 연구 과제로 남겨둡니다.
  • 수렴에 대한 이론적 분석: 경험적 반복 횟수는 적지만, 히스토그램 오류를 고려한 뉴턴 단계 수에 대한 형식적인 경계가 있으면 방법의 보장을 강화할 수 있습니다.

전반적으로 AdaSplash‑2는 미분 가능한 희소 어텐션이 빠르고 정확할 수 있음을 보여주며, 프로덕션 환경에서 확장 가능한 장기 컨텍스트 트랜스포머 모델의 길을 열어줍니다.

저자

  • Nuno Gonçalves
  • Hugo Pitorro
  • Vlad Niculae
  • Edoardo Ponti
  • Lei Li
  • Andre Martins
  • Marcos Treviso

논문 정보

  • arXiv ID: 2604.15180v1
  • 분류: cs.LG, cs.CL
  • 출판일: 2026년 4월 16일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »