[Paper] TokenDance: 집단 KV 캐시 공유를 통한 멀티 에이전트 LLM 서빙 확장

발행: (2026년 4월 4일 AM 01:04 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2604.03143v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다. 현재는 소스 링크만 포함되어 있어 번역할 내용이 없습니다. 텍스트(예: 초록, 본문, 섹션 등)를 알려주시면 바로 도와드리겠습니다.

개요

TokenDance 논문은 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템에서 숨겨진 비효율성을 해결합니다. 수십에서 수백 개의 에이전트가 동기화되어 실행될 때, 동일한 컨텍스트 조각을 반복적으로 교환하여 모델의 키‑값(KV) 캐시에서 대량의 중복이 발생합니다. TokenDance는 이러한 중복을 제거하는 집합적 캐시‑공유 메커니즘을 도입하여 메모리나 지연 시간이 폭증하지 않고도 훨씬 더 많은 에이전트를 동시에 실행할 수 있게 합니다.

주요 기여

  • Collective KV‑Cache Reuse: 한 번의 “KV Collector” 단계가 라운드 내 모든 에이전트에 걸쳐 공유 프롬프트 블록을 재사용하며, 에이전트 수와 무관하게 재사용 비용을 한 번만 지불합니다.
  • Diff‑Aware Storage Engine: 각 에이전트의 캐시를 마스터 복사본에 대한 희소 diff 형태로 저장하여 실제 워크로드에서 11–17× 압축을 달성합니다.
  • System‑Level Integration: 인기 있는 vLLM 서빙 스택 위에 구현되어 기존 추론 파이프라인과의 호환성을 유지합니다.
  • Empirical Gains: 기존 프리픽스‑캐싱 방식에 비해 동시 에이전트 수가 최대 2.7× 증가하고, 에이전트당 KV 메모리가 17.5× 감소하며, 프리필 속도가 1.9× 빨라짐을 보여줍니다.

방법론

  1. All‑Gather 패턴 식별 – 멀티‑에이전트 LLM 애플리케이션은 일반적으로 동기화된 라운드에서 동작합니다: 스케줄러가 각 에이전트의 출력을 수집하고, 이를 병합한 뒤 결합된 컨텍스트를 재배포합니다. 이는 에이전트 간에 동일한 “공유 출력 블록”을 생성합니다.

  2. KV Collector 설계 – 각 에이전트가 독립적으로 이러한 블록을 가져오고 저장하는 대신, TokenDance는 전체 라운드에 대해 단일 집합 KV 조회를 수행합니다. 검색된 KV 항목은 모든 에이전트에 브로드캐스트되어 중복 작업을 제거합니다.

  3. Master‑Diff 캐시 표현 – 하나의 에이전트(또는 시스템)가 공유 블록에 대한 마스터 KV 캐시를 보유합니다. 다른 에이전트들은 이 마스터에 대한 **차이점(희소 업데이트)**만 저장하여 메모리 사용량을 크게 줄입니다.

  4. vLLM과의 통합 – 저자들은 TokenDance를 vLLM의 기존 요청 스케줄러와 캐시 매니저에 연결하여, 새로운 메커니즘이 표준 추론 API 및 하드웨어 백엔드와 함께 작동하도록 합니다.

  5. 벤치마킹 – 실험은 두 가지 대표적인 멀티‑에이전트 스위트—GenerativeAgents(개인 비서 스타일 시뮬레이션)와 AgentSociety(대규모 협업 작업)—를 사용하여 엄격한 서비스 수준 목표(SLO) 하에서 처리량, 메모리 사용량 및 지연 시간을 측정합니다.

결과 및 발견

MetricBaseline (vLLM + prefix cache)TokenDance
Max concurrent agents (SLO‑bound)1.0× (reference)2.7×
Per‑agent KV memory1.0×0.057× (≈ 17.5× 감소)
Prefill latency1.0×1.9× 속도 향상
Compression of sibling cachesN/A11–17× (diff‑aware 스토리지)

이 수치들은 집합 캐시 재사용이 메모리를 절감할 뿐만 아니라 LLM 서빙에서 가장 비용이 많이 드는 프리필 단계의 속도를 높여, 더 많은 에이전트를 “웜(warm)” 상태로 유지하고 응답성을 향상시킬 수 있음을 보여줍니다.

Practical Implications

  • Scalable AI Assistants: 기업이 챗봇, 가상 팀원, 혹은 자율 에이전트를 구축할 때, 이제 GPU 메모리를 비례적으로 더 많이 할당하지 않아도 더 큰 규모의 플릿을 지원할 수 있습니다.
  • Cost Reduction: KV 메모리 사용량 감소는 직접적으로 GPU 인스턴스 수 감소 또는 기존 하드웨어의 활용도 향상으로 이어져 클라우드 호스팅 비용을 절감합니다.
  • Improved Responsiveness: 프리필 속도가 빨라지면 엔드‑투‑엔드 지연 시간이 낮아지며, 이는 실시간 협업 애플리케이션(예: 멀티플레이어 게임 NPC, 라이브 코딩 어시스턴트)에서 매우 중요합니다.
  • Simplified Deployment: TokenDance가 널리 사용되는 vLLM 스택에 플러그인 형태로 연결되기 때문에 기존 서비스는 최소한의 코드 변경만으로 도입할 수 있으며, 모델 아키텍처나 추론 파이프라인을 재설계할 필요가 없습니다.
  • Enabling New Workloads: 연구자와 제품 팀은 수십에서 수백 개의 상호 작용하는 LLM으로 구성된 “에이전트 사회”를 실험할 수 있게 되어, 보다 풍부한 시뮬레이션, 협업 계획, 그리고 emergent behavior 연구의 문을 열게 됩니다.

제한 사항 및 향후 연구

  • 동기화 라운드 필요: TokenDance의 성능 향상은 All‑Gather 통신 패턴에 의존합니다; 매우 비동기적이거나 이벤트 기반 에이전트 시스템에서는 동일한 이점을 얻지 못할 수 있습니다.
  • Diff 관리 오버헤드: 희소 diff를 유지하고 적용하는 데 CPU 작업이 추가됩니다; 논문에서는 극한 규모에서 상당해질 수 있는 적당한 오버헤드를 언급합니다.
  • 하드웨어 특수성: 실험은 NVIDIA GPU와 vLLM 프레임워크를 대상으로 합니다; 이 접근 방식을 다른 가속기나 서빙 스택에 확장하려면 추가 엔지니어링이 필요합니다.
  • 향후 방향: 저자들은 부분적으로 겹치는 컨텍스트를 가진 에이전트들의 동적 그룹화, 적응형 diff 세분화, 그리고 모델 병렬 파이프라인과의 통합을 탐구하여 엄격히 동기화된 워크로드를 넘어 적용 범위를 넓히는 것을 제안합니다.

저자

  • Zhuohang Bian
  • Feiyang Wu
  • Chengrui Zhang
  • Hangcheng Dong
  • Yun Liang
  • Youwei Zhuo

논문 정보

  • arXiv ID: 2604.03143v1
  • 분류: cs.DC
  • 출판일: 2026년 4월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

SRE 주간 이슈 #511

sreweekly.com에서 보기 https://sreweekly.com/sre-weekly-issue-511/ 시각이 없거나 약한 분들을 위해, Vanessa Huert를 인용한 J. Paul Reed의 스크린샷이 있습니다.