[Paper] Vortex: AI 에이전트를 위한 효율적이고 프로그래머블한 Sparse Attention 서빙

발행: 6일 전 (2026년 6월 5일 AM 02:48 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06453v1

Overview

Sparse attention은 생성 길이가 계속 증가함에 따라 대형 언어 모델(LLM) 서비스에 점점 더 중요해지고 있습니다. 그러나 새로운 sparse attention 알고리즘을 대규모로 배포하고 평가하는 일은 여전히 많은 엔지니어링 작업을 필요로 하며, 이는 인간 연구자와 AI 에이전트가 sparse attention 설계를 탐색하는 속도를 늦춥니다. 이러한 문제를 해결하기 위해 우리는 Vortex를 제시합니다. Vortex는 다양한 sparse attention 알고리즘을 표현하기 위한 페이지 중심 텐서 추상화 위에 Python‑임베디드 프런트엔드 언어를 결합하고, 최신 LLM 서빙 스택에 긴밀히 통합된 효율적인 백엔드를 제공합니다.

Vortex는 sparse attention 알고리즘의 빠른 프로토타이핑, 배포 및 평가를 가능하게 하여 이론적인 효율성 향상을 실제 처리량 개선으로 전환합니다. 그 결과, Vortex는 sparse attention 알고리즘의 설계와 반복을 크게 가속화합니다.

AI 에이전트는 Vortex를 사용해 다양한 알고리즘을 자동으로 생성·정제하며, 최고 성능은 전체 attention 대비 3.46배 높은 처리량을 달성하면서 정확성을 유지합니다.
Vortex는 기존에 실험이 어려웠던 최신 아키텍처와 초대형 모델에도 sparse attention을 확장하여, MLA 기반 GLM‑4.7‑Flash에서 4.7배, NVIDIA B200 GPU에서 229B‑parameter MiniMax‑M2.7에 대해 1.37배 높은 처리량을 달성합니다.

Key Contributions

연구 분야: cs.AI

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.AI 분야의 발전에 기여합니다.

Authors

Zhuoming Chen
Xinrui Zhong
Qilong Feng
Ranajoy Sadhukhan
Yang Zhou
Michael Qizhe Shieh
Zhihao Jia
Beidi Chen

Paper Information

arXiv ID: 2606.06453v1
Categories: cs.AI
Published: June 4, 2026
PDF: Download PDF

[Paper] Vortex: AI 에이전트를 위한 효율적이고 프로그래머블한 Sparse Attention 서빙

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법