Show HN: ZSE – 오픈소스 LLM 추론 엔진, 콜드 스타트 3.9초
발행: (2026년 2월 26일 오전 10:15 GMT+9)
3 분 소요
원문: Hacker News
Source: Hacker News
해결하려던 문제
32 B 모델을 일반적으로 실행하려면 약 64 GB VRAM이 필요하지만, 대부분의 개발자는 이를 보유하고 있지 않습니다. 양자화가 메모리를 절감해 주더라도 bitsandbytes NF4를 사용할 경우 첫 로드 시 2분 이상이 걸리고, 따뜻한 재시작 시 45–120 초가 소요되어 서버리스 및 자동 확장 사용 사례에 큰 제약이 됩니다.
ZSE가 다르게 하는 점
- 32 B 모델이 19.3 GB VRAM에 들어감 (FP16 대비 70 % 감소) – A100‑40GB 한 대에서 실행 가능
- 7 B 모델이 5.2 GB VRAM에 들어감 (63 % 감소) – 일반 소비자용 GPU에서도 실행 가능
- 메모리‑맵된 가중치를 갖는 네이티브
.zse사전 양자화 형식:- 3.9 초의 콜드 스타트 (7 B)
- 21.4 초의 콜드 스타트 (32 B)
- bitsandbytes 기준 45 초 / 120 초, vLLM 기준 약 30 초와 비교
- 모든 벤치마크는 Modal A100‑80GB (2026 년 2월)에서 검증됨
기능
- OpenAI와 호환되는 API 서버 (드롭‑인 교체)
- 인터랙티브 CLI (
zse serve,zse chat,zse convert,zse hardware) - 실시간 GPU 모니터링이 가능한 웹 대시보드
- 연속 배칭 (3.45× 처리량)
llama.cpp를 통한 GGUF 지원- CPU 폴백 – GPU 없이도 동작
- 속도 제한, 감사 로그, API‑키 인증
설치
pip install zllm-zse
모델 실행
zse serve Qwen/Qwen2.5-7B-Instruct
빠른 콜드 스타트 (한 번만 변환)
zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse # 매번 3.9 초
콜드 스타트 개선 방식
.zse 형식은 사전 양자화된 가중치를 메모리‑맵된 safetensors 형태로 저장합니다.
- 로드 시 양자화 단계가 없음
- 가중치 변환 없이
mmap+ GPU 전송만 수행
NVMe SSD에서는 7 B 모델에 대해 4 초 이하가 소요되며, 회전식 HDD에서는 더 오래 걸릴 수 있습니다.
라이선스
모든 코드는 실제 구현이며 모의 구현이 없습니다. Zyora Labs에서 제작했으며 Apache 2.0 라이선스를 따릅니다.
댓글: (포인트: 9)