Show HN: ZSE – 开源 LLM 推理引擎,冷启动 3.9 秒
发布: (2026年2月26日 GMT+8 09:15)
3 分钟阅读
原文: Hacker News
Source: Hacker News
我尝试解决的问题
运行一个 32 B 模型通常需要约 64 GB VRAM,而大多数开发者并没有这么多显存。即使量化可以帮助降低内存占用,使用 bitsandbytes NF4 的冷启动仍然需要 2 分钟以上 的首次加载时间,以及 45–120 秒 的热重启时间——这会导致无服务器和自动扩缩容的使用场景不可行。
ZSE 的不同之处
- 32 B 模型 只需 19.3 GB VRAM(比 FP16 减少 70 %)——可在单块 A100‑40GB 上运行
- 7 B 模型 只需 5.2 GB VRAM(减少 63 %)——可在消费级 GPU 上运行
- 原生
.zse预量化格式,使用内存映射权重:- 3.9 秒 冷启动(7 B)
- 21.4 秒 冷启动(32 B)
- 对比 bitsandbytes 的 45 秒 / 120 秒,vLLM 大约 30 秒
- 所有基准测试均在 Modal A100‑80GB(2026 年2月)上验证
特性
- 与 OpenAI 兼容的 API 服务器(直接替换)
- 交互式 CLI(
zse serve、zse chat、zse convert、zse hardware) - 带实时 GPU 监控的 Web 仪表盘
- 持续批处理(吞吐提升 3.45 倍)
- 通过
llama.cpp支持 GGUF - CPU 回退——即使没有 GPU 也能运行
- 限流、审计日志、API‑key 认证
安装
pip install zllm-zse
运行模型
zse serve Qwen/Qwen2.5-7B-Instruct
快速冷启动(一次性转换)
zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse # 每次 3.9 秒
冷启动加速原理
.zse 格式将预量化的权重存为内存映射的 safetensors。
- 加载时无需再进行量化步骤
- 不需要权重转换,只需
mmap+ GPU 传输
在 NVMe SSD 上,这可以让 7 B 模型的启动时间低于 4 秒;在机械硬盘上则会更慢。
许可证
所有代码均为真实实现——没有模拟实现。由 Zyora Labs 开发。采用 Apache 2.0 许可证。
评论: (积分: 9)