[Paper] ScaleSim: 대규모 다중 에이전트 시뮬레이션을 위한 호출 거리 기반 메모리 관리

발행: (2026년 1월 29일 오후 06:52 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2601.21473v1

개요

이 논문은 ScaleSim을 소개한다. 이 시스템은 GPU 메모리를 초과하지 않으면서 단일 시뮬레이션에서 수천 개의 LLM‑기반 에이전트를 실행하는 것을 실용적으로 만든다. 에이전트가 가끔씩만 활성화되고, 그들의 미래 활성화 순서를 예측할 수 있다는 관찰을 바탕으로, 저자들은 더 스마트한 메모리 프리패칭 및 제거를 가능하게 하는 새로운 “invocation distance” 추상화를 고안했으며, 이를 통해 실제 시뮬레이션 워크로드에서 눈에 띄는 속도 향상을 제공한다.

주요 기여

  • Invocation Distance 추상화 – 각 에이전트의 다음 LLM 요청까지의 거리를 추정하는 경량 메트릭으로, 사전 메모리 관리를 가능하게 함.
  • 사전 페치 및 우선순위 기반 교체 – 호출 거리가 짧은 에이전트는 상주시키고, 먼 미래에 호출될 에이전트는 교체하여 GPU 메모리 압력을 감소시킴.
  • 모듈형 메모리 인터페이스 – 모델 가중치, 프리픽스 캐시, 어댑터 등 에이전트별 이질적인 상태를 특정 표현에 종속되지 않게 지원.
  • ScaleSim 런타임 – 기존 LLM 백엔드(e.g., SGLang)와 통합되는 즉시 사용 가능한 서빙 레이어로, 다중 에이전트 벤치마크에서 1.74배까지 속도 향상을 제공.
  • 포괄적인 워크로드 분석 – 실제 시뮬레이션 워크로드를 특성화하여 에이전트 활성화의 희소성과 호출 순서의 예측 가능성을 검증.

방법론

  1. Workload Characterization – 저자들은 여러 대표적인 다중 에이전트 시뮬레이션(예: 게임 AI, 경제 모델링)을 프로파일링하고 두 가지 반복되는 패턴을 발견했습니다:

    • Sparse activation: 특정 단계에서 실제로 LLM 호출을 하는 에이전트는 소수에 불과합니다.
    • Predictable ordering: 에이전트가 호출되는 순서는 시뮬레이션의 제어 흐름으로부터 추정할 수 있습니다.
  2. Defining Invocation Distance – 각 에이전트에 대해 시스템은 다음 예상 LLM 요청까지 남은 단계 수(또는 시간)를 추적합니다. 이 거리는 시뮬레이션이 진행됨에 따라 지속적으로 업데이트됩니다.

  3. Memory Management Policy

    • Prefetching: 에이전트의 거리가 설정 가능한 임계값 이하로 떨어지면, 해당 에이전트의 개인 상태(모델 샤드, 캐시, 어댑터)가 GPU에 사전 로드됩니다.
    • Eviction: 거리가 가장 큰 에이전트가 먼저 제거 대상이 되어, 임박한 에이전트를 위한 공간을 확보합니다.
    • 이 정책은 호출 거리(Invocation Distance)를 키로 하는 우선순위 큐로 구현되어 O(log N) 업데이트를 가능하게 합니다.
  4. Modular State Interface – 개발자는 작은 API를 구현함으로써 맞춤형 에이전트별 데이터 구조(예: LoRA 어댑터, 프롬프트 프리픽스)를 플러그인할 수 있으며, ScaleSim은 이러한 블롭을 호스트 메모리와 디바이스 메모리 사이에서 자동으로 이동시킵니다.

  5. Integration & Evaluation – ScaleSim은 SGLang 서빙 스택 위에 구축되었습니다. 벤치마크에서는 원시 SGLang, SGLang + 단순 스와핑, 그리고 ScaleSim을 다양한 에이전트 수와 모델 크기에 걸쳐 비교했습니다.

결과 및 발견

MetricBaseline (SGLang)SGLang + Naïve SwapScaleSim
Throughput (agents · steps/s)1.0×1.12×1.74×
Peak GPU memory usage100 % (max)78 % (due to aggressive swapping)55 %
Latency per LLM call (ms)120135 (swap overhead)95
Scaling to #agents500800>1500
  • Speedup: ScaleSim의 prefetch‑evict 전략은 평균 호출당 지연 시간을 약 20 % 감소시키고, 시뮬레이션이 1 k 에이전트를 초과할 때 전체 처리량을 두 배 이상 증가시킵니다.
  • Memory savings: “근미래” 에이전트만 상주하도록 함으로써 GPU 메모리 사용량이 약 절반으로 줄어들어, 더 큰 기본 모델(예: 13 B 파라미터)을 사용할 수 있습니다.
  • Robustness: 시스템은 활성화 패턴의 동적 변화를 우아하게 처리하며, 호출 거리 메트릭은 전체 재분석 없이 실시간으로 적응합니다.

Practical Implications

  • Game & Virtual World AI: 스튜디오는 이제 GPU 팜이 필요 없이 LLM 기반 NPC로 대규모 오픈‑월드 환경을 채울 수 있습니다.
  • Economic & Social Simulations: 연구자들은 에이전트 수를 수만 명까지 확장할 수 있어, 더 풍부한 시나리오 테스트(예: 시장 역학, 팬데믹 모델링)를 가능하게 합니다.
  • Edge & Cloud Hybrid Deployments: 모듈식 메모리 인터페이스를 통해 개발자는 자주 사용되지 않는 에이전트 상태를 호스트 RAM이나 원격 스토리지로 오프로드하고, 핫한 에이전트만 고가의 GPU 인스턴스에 유지할 수 있습니다.
  • Cost Reduction: GPU 메모리 사용량 감소는 클라우드 GPU 임대 비용을 직접 낮추거나 단일 워크스테이션에 더 많은 에이전트를 배치할 수 있게 합니다.
  • Developer Productivity: ScaleSim은 기존 LLM 서빙 스택 위에 얇은 레이어로 작동하므로, 팀이 시뮬레이션 로직을 다시 작성하지 않고도 도입할 수 있습니다.

제한 사항 및 향후 작업

  • 예측 정확도: 호출 거리(invocation distance)는 시뮬레이션의 제어 흐름이 어느 정도 예측 가능할 때에 의존한다; 매우 확률적이거나 적대적인 에이전트 일정은 성능을 저하시킬 수 있다.
  • 거리 업데이트 오버헤드: 우선순위 큐를 유지하는 것이 약간의 CPU 오버헤드를 추가하며, 초고주파 시뮬레이션에서는 눈에 띌 수 있다.
  • 멀티‑GPU / 분산 환경 지원: 현재 프로토타입은 단일 GPU를 목표로 하며, 정책을 여러 장치나 클러스터에 확장하는 것은 향후 탐구 과제로 남겨진다.
  • 동적 모델 업데이트: 시스템은 에이전트별 정적 모델을 가정한다; 실시간 파인‑튜닝이나 어댑터 교체를 처리하려면 추가적인 관리가 필요하다.

저자들은 호출 거리의 학습 기반 예측기 연구, 분산 텐서 병렬화와의 통합, 그리고 LLM 추론 커널과의 더 긴밀한 결합을 탐색하여 지연 시간을 더욱 감소시키는 것을 제안한다.

저자

  • Zaifeng Pan
  • Yipeng Shen
  • Zhengding Hu
  • Zhuang Wang
  • Aninda Manocha
  • Zheng Wang
  • Zhongkai Yu
  • Yue Guan
  • Yufei Ding

논문 정보

  • arXiv ID: 2601.21473v1
  • Categories: cs.AI, cs.DC
  • Published: 2026년 1월 29일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »