[Paper] 인덱스는 한 번만: Cross-Layer Sparse Attention with Shared Routing

발행: (2026년 6월 5일 AM 02:54 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.06467v1

Overview

현대 LLM에서 장문 컨텍스트 추론은 디코딩 효율성에 의해 점점 더 제한되고 있습니다. 특히 모델이 긴 중간 사고 사슬을 생성하는 추론‑집중 설정에서는 더욱 그렇습니다. 기존의 희소 어텐션 방법들은 실용적인 효율성‑품질 트레이드‑오프에 직면하는 경우가 많습니다. 구조화된 블록 희소 방법은 일반적으로 더 강력한 가속을 제공하지만 눈에 띄는 품질 손실을 초래하고, 토큰 희소 방법은 보통 더 정확하지만 전체 캐시에서 top‑k 라우팅을 수행해야 하므로 엔드‑투‑엔드 속도 향상이 제한됩니다.

본 연구에서는 교차‑계층 희소 어텐션 (CLSA) 을 제안합니다. 이는 YOCO와 같은 KV‑공유 아키텍처 위에 구축됩니다. 핵심 아이디어는 KV 캐시를 교차 디코더 계층 간에 공유할 뿐만 아니라 라우팅 인덱스도 공유하는 것입니다. 단일 인덱서가 토큰‑단위 top‑k 선택을 한 번만 수행하고, 그 결과 인덱스를 여러 계층에 재사용함으로써 토큰 희소 어텐션의 세밀한 선택성을 유지하면서 라우팅 오버헤드를 amortize합니다. 이 아키텍처는 사전‑채우기, KV‑캐시 저장, 장문 컨텍스트 디코딩 등 주요 추론 병목을 모두 동시에 개선합니다.

짧은 컨텍스트와 긴 컨텍스트 벤치마크 전반에 걸친 실험 결과, CLSA는 정확도와 효율성을 모두 갖추었으며, 128K 컨텍스트에서 7.6배 디코딩 속도 향상전체 처리량 17.1배 개선을 달성했습니다. 이러한 결과는 모델 품질과 추론 효율성을 동시에 향상시키는 장문 컨텍스트 LLM을 위한 보다 완전한 아키텍처 솔루션을 제시합니다.

Key Contributions

  • cs.CL
  • cs.AI
  • cs.LG

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.CL 분야의 발전에 기여합니다.

Authors

  • Yutao Sun
  • Yanqi Zhang
  • Li Dong
  • Jianyong Wang
  • Furu Wei

Paper Information

  • arXiv ID: 2606.06467v1
  • Categories: cs.CL, cs.AI, cs.LG
  • Published: June 4, 2026
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »