[논문] 게이트형 DeltaNet-2: 선형 어텐션에서 삭제와 쓰기 분리
Source: arXiv - 2605.22791v1
개요
이 논문은 Gated DeltaNet‑2 라는 새로운 선형‑어텐션 구조를 소개한다. 이 구조는 압축 메모리를 업데이트할 때 “지우기(erase)”와 “쓰기(write)” 연산을 명확히 분리한다. 각 채널마다 독립적인 지우기와 쓰기 게이트를 부여함으로써, 모델은 이미 알고 있는 정보를 손상시키지 않으면서 관련 없는 정보를 잊을 수 있다. 그 결과, 선형 어텐션이 제공하는 속도와 메모리 효율성을 유지하면서도 장문 컨텍스트 언어 작업에서 더 강력한 성능을 달성한다.
주요 기여
- 분리된 지우기/쓰기 게이트: 채널‑별 지우기(
b_t)와 쓰기(w_t) 게이트를 도입해, 이전 선형‑어텐션 모델에서 제한적이던 스칼라 결합을 깨뜨렸다. - 통합 프레임워크: Gated DeltaNet‑2가 기존 접근법(Gated DeltaNet, Kimi Delta Attention)을 특수 경우로 포함한다는 것을 보였다.
- 효율적인 구현: 빠른 가중치 업데이트 관점과 채널‑별 감쇠를 비대칭 지우기 인자로 흡수하는 청크‑단위
WY알고리즘을 도출해, 병렬 학습 속도를 유지한다. - 최신 성능: 1.3 B 파라미터와 100 B 토큰 규모까지 확장하여, 언어 모델링, 상식 추론, 특히 장문 컨텍스트 검색(RULER needle‑in‑a‑haystack)에서 Mamba‑2/3, Gated DeltaNet, KDA를 능가한다.
- 오픈소스 공개: 전체 코드와 사전 학습 체크포인트를 제공해 손쉬운 채택과 추가 연구를 가능하게 한다.
방법론
선형 어텐션은 소프트맥스 어텐션의 2차 복잡도를 고정 크기의 순환 상태로 대체한다. 전통적인 설계는 하나의 스칼라 게이트를 사용해 오래된 키 정보를 지우고 새로운 값 정보를 쓰는데, 이는 과도한 망각이나 부족한 쓰기를 초래할 수 있다.
Gated DeltaNet‑2는 다음과 같이 해결한다:
- 현재 메모리(키
K와 값V)를 표준 선형‑어텐션 쿼리로 읽는다. - 채널당 두 개의 독립적인 게이트를 계산한다:
b_t(erase)는 기존 키 내용 중 얼마나 버릴지를 결정한다.w_t(write)는 새로운 값을 얼마나 주입할지를 결정한다.
- 채널‑별 감쇠를 적용한다(KDA와 동일) – 오래된 정보를 점진적으로 사라지게 하지만, 이제 감쇠가 비대칭 지우기 인자에 포함돼 업데이트 수식이 단순해진다.
- 청크‑단위
WY형태로 빠른 가중치 행렬을 업데이트한다, 이는 GPU/TPU에서 높은 병렬성을 제공한다.
역전파 또한 게이트를 인식하므로, 추가 메모리 오버헤드 없이 지우기와 쓰기 경로 모두를 통해 그래디언트가 흐른다. 이는 선형 시간 학습 이점을 유지한다.
결과 및 발견
| 모델 (1.3 B) | 언어 모델링 (퍼플렉시티) | 상식 (정확도) | RULER 검색 (↑) |
|---|---|---|---|
| Mamba‑3 | 7.8 | 78 % | 45 % |
| Gated DeltaNet | 7.5 | 79 % | 48 % |
| KDA | 7.4 | 80 % | 49 % |
| Gated DeltaNet‑2 | 7.2 | 81 % | 55 % |
- 모든 벤치마크에서 일관된 향상을 보였으며, 특히 장문 컨텍스트 RULER needle‑in‑a‑haystack 작업에서 가장 큰 상승을 기록했다(≈ +6 % 절대 정확도).
- 학습 효율성은 시퀀스 길이에 선형적으로 유지되고, 추론 시 메모리는 일정하게 유지돼 일반 트랜스포머의 2차 폭증 없이 64 k 토큰 이상의 시퀀스에서도 추론이 가능하다.
- 소거 연구에서 지우기 혹은 쓰기 게이트 중 하나를 제거하면 성능이 떨어지는 것이 확인돼, 분리된 설계의 중요성을 입증한다.
실용적 함의
- 장문 컨텍스트 응용: 챗봇, 코드 어시스턴트, 문서 수준 QA 등을 구축하는 개발자는 이제 수만 토큰에 달하는 긴 히스토리를 GPU 메모리 한계에 걸리지 않고 처리할 수 있다.
- 실시간 추론: 일정 메모리 디코딩은 스트리밍 전사나 점진적 생성과 같은 실시간 사용 사례에서 지연 시간을 낮춘다.
- 파인튜닝 효율성: 모델이 선형 시간 학습을 유지하므로, 도메인 특화 코퍼스(예: 법률·과학 텍스트)에서 대규모 파인튜닝도 비용 효율적으로 수행할 수 있다.
- 하이브리드 파이프라인: Gated DeltaNet‑2는 기존 트랜스포머 스택에 어텐션 레이어만 교체하는 형태로 삽입할 수 있어, 긴 컨텍스트 윈도우가 필요한 시스템에 “플러그‑앤‑플레이” 업그레이드를 제공한다.
제한점 및 향후 연구
- 하드웨어‑특화 최적화: 현재 구현은 NVIDIA GPU에 최적화돼 있어, CPU나 신흥 가속기에서의 성능은 추가 엔지니어링이 필요할 수 있다.
- 1.3 B 이상 확장: 현재 규모에서 좋은 결과를 보였지만, 수십억 파라미터 모델에서 게이트 분리 설계가 어떻게 동작할지는 아직 미지이다.
- 이론적 분석: 논문은 망각이 개선된 경험적 증거를 제시하지만, 게이트 동역학에 대한 깊은 이론적 이해가 있으면 보다 원칙적인 설계에 도움이 될 것이다.
- 다양한 작업: 평가가 언어 모델링과 검색에 집중돼 있어, 비전‑언어 혹은 멀티모달 작업에 Gated DeltaNet‑2를 적용하는 연구는 아직 진행되지 않았다.
Gated DeltaNet‑2는 지우기와 쓰기를 채널‑별 게이트로 분리하는 소규모 구조적 변형만으로도 선형 어텐션의 잠재력을 완전히 끌어올려, 실제 세계의 장문 컨텍스트 AI 시스템에 적용 가능함을 보여준다.
저자
- Ali Hatamizadeh
- Yejin Choi
- Jan Kautz
논문 정보
- arXiv ID: 2605.22791v1
- 분류: cs.AI
- 발표일: 2026년 5월 21일
- PDF: PDF 다운로드