[Paper] Vulcan: LLM 기반 검색을 통한 인스턴스 최적 시스템 휴리스틱

발행: (2026년 1월 1일 오전 03:58 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.25065v1

개요

The paper introduces Vulcan, a framework that leverages code‑generating large language models (LLMs) to automatically synthesize instance‑optimal system heuristics—tiny, workload‑specific policies for tasks like cache eviction or memory tiering. By turning the heuristic‑design process into a searchable program‑generation problem, the authors show that LLM‑crafted policies can beat the best hand‑tuned algorithms on real hardware.

주요 기여

  • LLM‑driven policy synthesis: 잘 정의된, 작업에 구애받지 않는 인터페이스에 의해 안내될 때, 심지어 규모가 작은 LLM이라도 올바르고 실행 가능한 시스템 코드를 생성할 수 있음을 보여준다.
  • Separation of policy and mechanism: LLM이 무엇을 결정할지(정책)에 집중하도록 하고, 기반 시스템이 어떻게 실행할지(메커니즘)를 처리하도록 하는 경량 API를 도입한다.
  • Evolutionary search over generated code: 빠른 인구 기반 탐색을 사용하여 LLM이 만든 휴리스틱 공간을 탐색하고, 주어진 워크로드/하드웨어 쌍에 대한 최적의 성능을 보이는 솔루션으로 수렴한다.
  • Empirical breakthroughs: 합성된 캐시‑퇴출 정책은 최신 LRU‑기반 및 학습‑기반 알고리즘을 최대 **69 %**까지 능가하며, 메모리‑티어링 정책은 성능을 7.9 % 향상시킨다.
  • Generalizable workflow: 핸드크래프트된 문제‑특정 프롬프트나 모델 파인‑튜닝 없이도 동일한 파이프라인이 여러 자원‑관리 문제에 적용될 수 있음을 보여준다.

방법론

  1. 최소 인터페이스 정의 – 시스템은 작은 함수 집합(예: on_access(key), evict_candidate())과 스칼라 목표(예: 히트율, 지연 시간)를 노출합니다. 이를 통해 LLM의 코드 생성 작업을 단순하고 검증 가능하게 유지합니다.
  2. LLM에 프롬프트 제공 – 인터페이스에 대한 간결한 설명과 최적화 목표를 코드 생성 LLM(예: Codex 또는 7B‑parameter 모델)에 전달합니다. 모델은 대상 언어(C/C++/Rust)로 된 후보 정책 구현을 반환합니다.
  3. 컴파일 및 샌드박스 실행 – 생성된 코드를 컴파일하고 캐시 시뮬레이터, 메모리 티어링 에뮬레이터와 같은 대상 시스템을 시뮬레이션하는 안전한 샌드박스 안에서 실행합니다.
  4. 진화적 탐색 – 진화 알고리즘이 각 컴파일된 정책을 개체로 취급합니다. 프롬프트를 변형(예: 문구 조정, 제약 조건 추가)하고 성공적인 스니펫을 재조합하여 성능을 반복적으로 향상시킵니다.
  5. 최적의 인스턴스‑최적 정책 선택 – 고정된 세대 예산이 끝난 후, 가장 높은 점수를 받은 정책을 특정 워크로드/하드웨어 구성에 대한 최종 휴리스틱으로 배포합니다.

핵심 통찰은 인터페이스를 통한 문제 공간 제한입니다. 이를 통해 비교적 작은 LLM이라도 구문적으로 올바르고 실행 가능한 코드를 안정적으로 생성할 수 있어, 탐색이 디버깅이 아닌 성능 향상에 집중될 수 있습니다.

결과 및 발견

작업기준 (human‑designed)Vulcan‑합성개선
캐시 퇴출 (hit‑rate)LRU, HyperCache, TinyLFU맞춤형 LLM 정책+69 % 히트‑rate
메모리 티어링 (throughput)Tiered‑LRU, RL‑based tieringLLM‑생성 티어링 규칙+7.9 % 처리량
  • 견고성: 생성된 정책은 워크로드 혼합의 변동(예: Zipfian vs. 균일 접근)에도 안정적으로 유지되었습니다.
  • 합성 속도: 7B‑파라미터 모델을 사용하여 전체 검색(≈ 200 세대)이 단일 GPU에서 몇 시간 내에 완료되었으며, 전체 수동 재설계 주기보다 훨씬 저렴했습니다.
  • 이식성: 동일한 인터페이스를 통해 백엔드(예: 캐시 시뮬레이터에서 실제 커널 모듈로) 교체가 최소한의 변경으로 가능했습니다.

실용적 함의

  • 빠른 휴리스틱 프로토타이핑 – 시스템 엔지니어는 이제 LLM에게 “워크로드 X에 대해 히트율을 최대화하는 캐시 교체 정책을 작성해 달라”고 요청하고 Vulcan이 자동으로 반복하도록 할 수 있어, 수 주에 걸친 시행착오를 줄일 수 있습니다.
  • 엣지 디바이스에 맞춘 성능 – 고유한 메모리 계층 구조를 가진 소형 IoT 또는 엣지 서버도 전담 연구팀 없이 맞춤형 정책을 받을 수 있습니다.
  • 지속적인 적응 – 워크로드가 변동될 때(예: 소프트웨어 업데이트 후) 동일한 파이프라인을 밤새 재실행하여 새로운 최적의 휴리스틱을 생성할 수 있어 자체 최적화 시스템을 구현합니다.
  • 진입 장벽 감소 – 깊은 OS 이론이 없는 개발자도 여전히 고품질 정책을 얻을 수 있어, 성능 엔지니어링을 민주화합니다.
  • 잠재적 통합 포인트 – 커널 서브시스템(예: 페이지 교체), 스토리지 엔진, CDN 캐시, 클라우드 오케스트레이션 레이어 등이 Vulcan 인터페이스를 플러그인 형태로 제공하면 운영자가 테넌트별로 정책을 자동 튜닝할 수 있습니다.

제한 사항 및 향후 작업

  • 검색 예산 vs. 최적성 – 진화적 검색은 전역 최적해를 보장하지 않으며, 결과는 세대 수와 프롬프트 다양성에 따라 달라집니다.
  • 모델 신뢰성 – 제한된 인터페이스가 구문 오류를 줄이지만, 가끔 발생하는 의미 버그는 런타임 검증이 필요해 오버헤드가 추가됩니다.
  • 하드웨어 특이성 – 정책은 인스턴스‑최적이며, 하나의 CPU/캐시 구성에 맞춘 정책이 다른 구성에서는 성능이 저하될 수 있어 각 대상에 대해 재‑합성이 필요합니다.
  • 복잡한 정책에 대한 확장성 – 다차원 상태가 필요한 작업(예: 다중‑큐 스케줄러)은 작은 LLM의 표현력 한계를 초과할 수 있어, 더 큰 모델이나 계층형 인터페이스가 필요합니다.
  • 향후 방향 – 저자들은 (a) 시스템이 운영 중에 정책을 지속적으로 개선하는 폐쇄‑루프 온라인 합성, (b) 버그를 더욱 줄이기 위한 풍부한 타입‑안전 인터페이스, (c) 검색 효율성을 높이기 위한 강화학습 신호와의 통합을 탐구할 것을 제안합니다.

저자

  • Rohit Dwivedula
  • Divyanshu Saxena
  • Sujay Yadalam
  • Daehyeok Kim
  • Aditya Akella

논문 정보

  • arXiv ID: 2512.25065v1
  • 분류: cs.OS, cs.AI, cs.DC
  • 출판일: 2025년 12월 31일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »