Show HN: ZSE – 오픈소스 LLM 추론 엔진, 콜드 스타트 3.9초

발행: 3일 전 (2026년 2월 26일 오전 10:15 GMT+9)

3 분 소요

Source: Hacker News

해결하려던 문제

32 B 모델을 일반적으로 실행하려면 약 64 GB VRAM이 필요하지만, 대부분의 개발자는 이를 보유하고 있지 않습니다. 양자화가 메모리를 절감해 주더라도 bitsandbytes NF4를 사용할 경우 첫 로드 시 2분 이상이 걸리고, 따뜻한 재시작 시 45–120 초가 소요되어 서버리스 및 자동 확장 사용 사례에 큰 제약이 됩니다.

ZSE가 다르게 하는 점

32 B 모델이 19.3 GB VRAM에 들어감 (FP16 대비 70 % 감소) – A100‑40GB 한 대에서 실행 가능
7 B 모델이 5.2 GB VRAM에 들어감 (63 % 감소) – 일반 소비자용 GPU에서도 실행 가능
메모리‑맵된 가중치를 갖는 네이티브 .zse 사전 양자화 형식:
- 3.9 초의 콜드 스타트 (7 B)
- 21.4 초의 콜드 스타트 (32 B)
- bitsandbytes 기준 45 초 / 120 초, vLLM 기준 약 30 초와 비교
모든 벤치마크는 Modal A100‑80GB (2026 년 2월)에서 검증됨

기능

OpenAI와 호환되는 API 서버 (드롭‑인 교체)
인터랙티브 CLI (zse serve, zse chat, zse convert, zse hardware)
실시간 GPU 모니터링이 가능한 웹 대시보드
연속 배칭 (3.45× 처리량)
llama.cpp를 통한 GGUF 지원
CPU 폴백 – GPU 없이도 동작
속도 제한, 감사 로그, API‑키 인증

설치

pip install zllm-zse

모델 실행

zse serve Qwen/Qwen2.5-7B-Instruct

빠른 콜드 스타트 (한 번만 변환)

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse   # 매번 3.9 초

콜드 스타트 개선 방식

.zse 형식은 사전 양자화된 가중치를 메모리‑맵된 safetensors 형태로 저장합니다.

로드 시 양자화 단계가 없음
가중치 변환 없이 mmap + GPU 전송만 수행

NVMe SSD에서는 7 B 모델에 대해 4 초 이하가 소요되며, 회전식 HDD에서는 더 오래 걸릴 수 있습니다.

라이선스

모든 코드는 실제 구현이며 모의 구현이 없습니다. Zyora Labs에서 제작했으며 Apache 2.0 라이선스를 따릅니다.

댓글: (포인트: 9)

Show HN: ZSE – 오픈소스 LLM 추론 엔진, 콜드 스타트 3.9초

해결하려던 문제

ZSE가 다르게 하는 점

기능

설치

모델 실행

빠른 콜드 스타트 (한 번만 변환)

콜드 스타트 개선 방식

라이선스

관련 글

새로운 Polymarket 계정이 미국의 이란에 대한 공격에 베팅해 50만 달러 이상을 벌어들였다

MCP가 CLI보다 의미가 있을 때는 언제인가?

왜 XML 태그가 Claude에게 그렇게 근본적인가

왜 XML 태그가 Claude에게 그렇게 기본적인가