[Paper] ScaleSim: 대규모 다중 에이전트 시뮬레이션을 위한 호출 거리 기반 메모리 관리

발행: 1주 전 (2026년 1월 29일 오후 06:52 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2601.21473v1

개요

이 논문은 ScaleSim을 소개한다. 이 시스템은 GPU 메모리를 초과하지 않으면서 단일 시뮬레이션에서 수천 개의 LLM‑기반 에이전트를 실행하는 것을 실용적으로 만든다. 에이전트가 가끔씩만 활성화되고, 그들의 미래 활성화 순서를 예측할 수 있다는 관찰을 바탕으로, 저자들은 더 스마트한 메모리 프리패칭 및 제거를 가능하게 하는 새로운 “invocation distance” 추상화를 고안했으며, 이를 통해 실제 시뮬레이션 워크로드에서 눈에 띄는 속도 향상을 제공한다.

주요 기여

Invocation Distance 추상화 – 각 에이전트의 다음 LLM 요청까지의 거리를 추정하는 경량 메트릭으로, 사전 메모리 관리를 가능하게 함.
사전 페치 및 우선순위 기반 교체 – 호출 거리가 짧은 에이전트는 상주시키고, 먼 미래에 호출될 에이전트는 교체하여 GPU 메모리 압력을 감소시킴.
모듈형 메모리 인터페이스 – 모델 가중치, 프리픽스 캐시, 어댑터 등 에이전트별 이질적인 상태를 특정 표현에 종속되지 않게 지원.
ScaleSim 런타임 – 기존 LLM 백엔드(e.g., SGLang)와 통합되는 즉시 사용 가능한 서빙 레이어로, 다중 에이전트 벤치마크에서 1.74배까지 속도 향상을 제공.
포괄적인 워크로드 분석 – 실제 시뮬레이션 워크로드를 특성화하여 에이전트 활성화의 희소성과 호출 순서의 예측 가능성을 검증.

방법론

Workload Characterization – 저자들은 여러 대표적인 다중 에이전트 시뮬레이션(예: 게임 AI, 경제 모델링)을 프로파일링하고 두 가지 반복되는 패턴을 발견했습니다:
- Sparse activation: 특정 단계에서 실제로 LLM 호출을 하는 에이전트는 소수에 불과합니다.
- Predictable ordering: 에이전트가 호출되는 순서는 시뮬레이션의 제어 흐름으로부터 추정할 수 있습니다.
Defining Invocation Distance – 각 에이전트에 대해 시스템은 다음 예상 LLM 요청까지 남은 단계 수(또는 시간)를 추적합니다. 이 거리는 시뮬레이션이 진행됨에 따라 지속적으로 업데이트됩니다.
Memory Management Policy –
- Prefetching: 에이전트의 거리가 설정 가능한 임계값 이하로 떨어지면, 해당 에이전트의 개인 상태(모델 샤드, 캐시, 어댑터)가 GPU에 사전 로드됩니다.
- Eviction: 거리가 가장 큰 에이전트가 먼저 제거 대상이 되어, 임박한 에이전트를 위한 공간을 확보합니다.
- 이 정책은 호출 거리(Invocation Distance)를 키로 하는 우선순위 큐로 구현되어 O(log N) 업데이트를 가능하게 합니다.
Modular State Interface – 개발자는 작은 API를 구현함으로써 맞춤형 에이전트별 데이터 구조(예: LoRA 어댑터, 프롬프트 프리픽스)를 플러그인할 수 있으며, ScaleSim은 이러한 블롭을 호스트 메모리와 디바이스 메모리 사이에서 자동으로 이동시킵니다.
Integration & Evaluation – ScaleSim은 SGLang 서빙 스택 위에 구축되었습니다. 벤치마크에서는 원시 SGLang, SGLang + 단순 스와핑, 그리고 ScaleSim을 다양한 에이전트 수와 모델 크기에 걸쳐 비교했습니다.

결과 및 발견

Metric	Baseline (SGLang)	SGLang + Naïve Swap	ScaleSim
Throughput (agents · steps/s)	1.0×	1.12×	1.74×
Peak GPU memory usage	100 % (max)	78 % (due to aggressive swapping)	55 %
Latency per LLM call (ms)	120	135 (swap overhead)	95
Scaling to #agents	500	800	>1500

Speedup: ScaleSim의 prefetch‑evict 전략은 평균 호출당 지연 시간을 약 20 % 감소시키고, 시뮬레이션이 1 k 에이전트를 초과할 때 전체 처리량을 두 배 이상 증가시킵니다.
Memory savings: “근미래” 에이전트만 상주하도록 함으로써 GPU 메모리 사용량이 약 절반으로 줄어들어, 더 큰 기본 모델(예: 13 B 파라미터)을 사용할 수 있습니다.
Robustness: 시스템은 활성화 패턴의 동적 변화를 우아하게 처리하며, 호출 거리 메트릭은 전체 재분석 없이 실시간으로 적응합니다.

Practical Implications

Game & Virtual World AI: 스튜디오는 이제 GPU 팜이 필요 없이 LLM 기반 NPC로 대규모 오픈‑월드 환경을 채울 수 있습니다.
Economic & Social Simulations: 연구자들은 에이전트 수를 수만 명까지 확장할 수 있어, 더 풍부한 시나리오 테스트(예: 시장 역학, 팬데믹 모델링)를 가능하게 합니다.
Edge & Cloud Hybrid Deployments: 모듈식 메모리 인터페이스를 통해 개발자는 자주 사용되지 않는 에이전트 상태를 호스트 RAM이나 원격 스토리지로 오프로드하고, 핫한 에이전트만 고가의 GPU 인스턴스에 유지할 수 있습니다.
Cost Reduction: GPU 메모리 사용량 감소는 클라우드 GPU 임대 비용을 직접 낮추거나 단일 워크스테이션에 더 많은 에이전트를 배치할 수 있게 합니다.
Developer Productivity: ScaleSim은 기존 LLM 서빙 스택 위에 얇은 레이어로 작동하므로, 팀이 시뮬레이션 로직을 다시 작성하지 않고도 도입할 수 있습니다.

제한 사항 및 향후 작업

예측 정확도: 호출 거리(invocation distance)는 시뮬레이션의 제어 흐름이 어느 정도 예측 가능할 때에 의존한다; 매우 확률적이거나 적대적인 에이전트 일정은 성능을 저하시킬 수 있다.
거리 업데이트 오버헤드: 우선순위 큐를 유지하는 것이 약간의 CPU 오버헤드를 추가하며, 초고주파 시뮬레이션에서는 눈에 띌 수 있다.
멀티‑GPU / 분산 환경 지원: 현재 프로토타입은 단일 GPU를 목표로 하며, 정책을 여러 장치나 클러스터에 확장하는 것은 향후 탐구 과제로 남겨진다.
동적 모델 업데이트: 시스템은 에이전트별 정적 모델을 가정한다; 실시간 파인‑튜닝이나 어댑터 교체를 처리하려면 추가적인 관리가 필요하다.

저자들은 호출 거리의 학습 기반 예측기 연구, 분산 텐서 병렬화와의 통합, 그리고 LLM 추론 커널과의 더 긴밀한 결합을 탐색하여 지연 시간을 더욱 감소시키는 것을 제안한다.

저자

Zaifeng Pan
Yipeng Shen
Zhengding Hu
Zhuang Wang
Aninda Manocha
Zheng Wang
Zhongkai Yu
Yue Guan
Yufei Ding

논문 정보

arXiv ID: 2601.21473v1
Categories: cs.AI, cs.DC
Published: 2026년 1월 29일
PDF: PDF 다운로드

[Paper] ScaleSim: 대규모 다중 에이전트 시뮬레이션을 위한 호출 거리 기반 메모리 관리

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] VideoGPA: Geometry Priors를 증류하여 3D-Consistent Video Generation

[Paper] 공유 자율성 패러다임에서 신념 및 정책 학습의 엔드투엔드 최적화

[Paper] 함수 공간에서의 역문제에 대한 Decoupled Diffusion Sampling

[Paper] FOCUS: DLLMs는 Compute Bound를 제어하는 방법을 알고 있다