Show HN: ZSE – 오픈소스 LLM 추론 엔진, 콜드 스타트 3.9초

발행: (2026년 2월 26일 오전 10:15 GMT+9)
3 분 소요

Source: Hacker News

해결하려던 문제

32 B 모델을 일반적으로 실행하려면 약 64 GB VRAM이 필요하지만, 대부분의 개발자는 이를 보유하고 있지 않습니다. 양자화가 메모리를 절감해 주더라도 bitsandbytes NF4를 사용할 경우 첫 로드 시 2분 이상이 걸리고, 따뜻한 재시작 시 45–120 초가 소요되어 서버리스 및 자동 확장 사용 사례에 큰 제약이 됩니다.

ZSE가 다르게 하는 점

  • 32 B 모델19.3 GB VRAM에 들어감 (FP16 대비 70 % 감소) – A100‑40GB 한 대에서 실행 가능
  • 7 B 모델5.2 GB VRAM에 들어감 (63 % 감소) – 일반 소비자용 GPU에서도 실행 가능
  • 메모리‑맵된 가중치를 갖는 네이티브 .zse 사전 양자화 형식:
    • 3.9 초의 콜드 스타트 (7 B)
    • 21.4 초의 콜드 스타트 (32 B)
    • bitsandbytes 기준 45 초 / 120 초, vLLM 기준 약 30 초와 비교
  • 모든 벤치마크는 Modal A100‑80GB (2026 년 2월)에서 검증됨

기능

  • OpenAI와 호환되는 API 서버 (드롭‑인 교체)
  • 인터랙티브 CLI (zse serve, zse chat, zse convert, zse hardware)
  • 실시간 GPU 모니터링이 가능한 웹 대시보드
  • 연속 배칭 (3.45× 처리량)
  • llama.cpp를 통한 GGUF 지원
  • CPU 폴백 – GPU 없이도 동작
  • 속도 제한, 감사 로그, API‑키 인증

설치

pip install zllm-zse

모델 실행

zse serve Qwen/Qwen2.5-7B-Instruct

빠른 콜드 스타트 (한 번만 변환)

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse   # 매번 3.9 초

콜드 스타트 개선 방식

.zse 형식은 사전 양자화된 가중치를 메모리‑맵된 safetensors 형태로 저장합니다.

  • 로드 시 양자화 단계가 없음
  • 가중치 변환 없이 mmap + GPU 전송만 수행

NVMe SSD에서는 7 B 모델에 대해 4 초 이하가 소요되며, 회전식 HDD에서는 더 오래 걸릴 수 있습니다.

라이선스

모든 코드는 실제 구현이며 모의 구현이 없습니다. Zyora Labs에서 제작했으며 Apache 2.0 라이선스를 따릅니다.


댓글: (포인트: 9)

0 조회
Back to Blog

관련 글

더 보기 »