[Paper] 인덱스는 한 번만: Cross-Layer Sparse Attention with Shared Routing
Source: arXiv - 2606.06467v1
Overview
현대 LLM에서 장문 컨텍스트 추론은 디코딩 효율성에 의해 점점 더 제한되고 있습니다. 특히 모델이 긴 중간 사고 사슬을 생성하는 추론‑집중 설정에서는 더욱 그렇습니다. 기존의 희소 어텐션 방법들은 실용적인 효율성‑품질 트레이드‑오프에 직면하는 경우가 많습니다. 구조화된 블록 희소 방법은 일반적으로 더 강력한 가속을 제공하지만 눈에 띄는 품질 손실을 초래하고, 토큰 희소 방법은 보통 더 정확하지만 전체 캐시에서 top‑k 라우팅을 수행해야 하므로 엔드‑투‑엔드 속도 향상이 제한됩니다.
본 연구에서는 교차‑계층 희소 어텐션 (CLSA) 을 제안합니다. 이는 YOCO와 같은 KV‑공유 아키텍처 위에 구축됩니다. 핵심 아이디어는 KV 캐시를 교차 디코더 계층 간에 공유할 뿐만 아니라 라우팅 인덱스도 공유하는 것입니다. 단일 인덱서가 토큰‑단위 top‑k 선택을 한 번만 수행하고, 그 결과 인덱스를 여러 계층에 재사용함으로써 토큰 희소 어텐션의 세밀한 선택성을 유지하면서 라우팅 오버헤드를 amortize합니다. 이 아키텍처는 사전‑채우기, KV‑캐시 저장, 장문 컨텍스트 디코딩 등 주요 추론 병목을 모두 동시에 개선합니다.
짧은 컨텍스트와 긴 컨텍스트 벤치마크 전반에 걸친 실험 결과, CLSA는 정확도와 효율성을 모두 갖추었으며, 128K 컨텍스트에서 7.6배 디코딩 속도 향상 및 전체 처리량 17.1배 개선을 달성했습니다. 이러한 결과는 모델 품질과 추론 효율성을 동시에 향상시키는 장문 컨텍스트 LLM을 위한 보다 완전한 아키텍처 솔루션을 제시합니다.
Key Contributions
- cs.CL
- cs.AI
- cs.LG
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.CL 분야의 발전에 기여합니다.
Authors
- Yutao Sun
- Yanqi Zhang
- Li Dong
- Jianyong Wang
- Furu Wei
Paper Information
- arXiv ID: 2606.06467v1
- Categories: cs.CL, cs.AI, cs.LG
- Published: June 4, 2026
- PDF: Download PDF