[Paper] Vortex: AI 에이전트를 위한 효율적이고 프로그래머블한 Sparse Attention 서빙
Source: arXiv - 2606.06453v1
Overview
Sparse attention은 생성 길이가 계속 증가함에 따라 대형 언어 모델(LLM) 서비스에 점점 더 중요해지고 있습니다. 그러나 새로운 sparse attention 알고리즘을 대규모로 배포하고 평가하는 일은 여전히 많은 엔지니어링 작업을 필요로 하며, 이는 인간 연구자와 AI 에이전트가 sparse attention 설계를 탐색하는 속도를 늦춥니다. 이러한 문제를 해결하기 위해 우리는 Vortex를 제시합니다. Vortex는 다양한 sparse attention 알고리즘을 표현하기 위한 페이지 중심 텐서 추상화 위에 Python‑임베디드 프런트엔드 언어를 결합하고, 최신 LLM 서빙 스택에 긴밀히 통합된 효율적인 백엔드를 제공합니다.
Vortex는 sparse attention 알고리즘의 빠른 프로토타이핑, 배포 및 평가를 가능하게 하여 이론적인 효율성 향상을 실제 처리량 개선으로 전환합니다. 그 결과, Vortex는 sparse attention 알고리즘의 설계와 반복을 크게 가속화합니다.
- AI 에이전트는 Vortex를 사용해 다양한 알고리즘을 자동으로 생성·정제하며, 최고 성능은 전체 attention 대비 3.46배 높은 처리량을 달성하면서 정확성을 유지합니다.
- Vortex는 기존에 실험이 어려웠던 최신 아키텍처와 초대형 모델에도 sparse attention을 확장하여, MLA 기반 GLM‑4.7‑Flash에서 4.7배, NVIDIA B200 GPU에서 229B‑parameter MiniMax‑M2.7에 대해 1.37배 높은 처리량을 달성합니다.
Key Contributions
- 연구 분야: cs.AI
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.AI 분야의 발전에 기여합니다.
Authors
- Zhuoming Chen
- Xinrui Zhong
- Qilong Feng
- Ranajoy Sadhukhan
- Yang Zhou
- Michael Qizhe Shieh
- Zhihao Jia
- Beidi Chen
Paper Information
- arXiv ID: 2606.06453v1
- Categories: cs.AI
- Published: June 4, 2026
- PDF: Download PDF