Show HN: ZSE – 开源 LLM 推理引擎，冷启动 3.9 秒

发布: 3天前 (2026年2月26日 GMT+8 09:15)

3 分钟阅读

Source: Hacker News

我尝试解决的问题

运行一个 32 B 模型通常需要约 64 GB VRAM，而大多数开发者并没有这么多显存。即使量化可以帮助降低内存占用，使用 bitsandbytes NF4 的冷启动仍然需要 2 分钟以上 的首次加载时间，以及 45–120 秒 的热重启时间——这会导致无服务器和自动扩缩容的使用场景不可行。

ZSE 的不同之处

32 B 模型 只需 19.3 GB VRAM（比 FP16 减少 70 %）——可在单块 A100‑40GB 上运行
7 B 模型 只需 5.2 GB VRAM（减少 63 %）——可在消费级 GPU 上运行
原生 .zse 预量化格式，使用内存映射权重：
- 3.9 秒 冷启动（7 B）
- 21.4 秒 冷启动（32 B）
- 对比 bitsandbytes 的 45 秒 / 120 秒，vLLM 大约 30 秒
所有基准测试均在 Modal A100‑80GB（2026 年2月）上验证

特性

与 OpenAI 兼容的 API 服务器（直接替换）
交互式 CLI（zse serve、zse chat、zse convert、zse hardware）
带实时 GPU 监控的 Web 仪表盘
持续批处理（吞吐提升 3.45 倍）
通过 llama.cpp 支持 GGUF
CPU 回退——即使没有 GPU 也能运行
限流、审计日志、API‑key 认证

安装

pip install zllm-zse

运行模型

zse serve Qwen/Qwen2.5-7B-Instruct

快速冷启动（一次性转换）

zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse   # 每次 3.9 秒

冷启动加速原理

.zse 格式将预量化的权重存为内存映射的 safetensors。

加载时无需再进行量化步骤
不需要权重转换，只需 mmap + GPU 传输

在 NVMe SSD 上，这可以让 7 B 模型的启动时间低于 4 秒；在机械硬盘上则会更慢。

许可证

所有代码均为真实实现——没有模拟实现。由 Zyora Labs 开发。采用 Apache 2.0 许可证。

评论： (积分： 9)

Show HN: ZSE – 开源 LLM 推理引擎，冷启动 3.9 秒

我尝试解决的问题

ZSE 的不同之处

特性

安装

运行模型

快速冷启动（一次性转换）

冷启动加速原理

许可证

相关文章

一个新 Polymarket 账户在美国对伊朗的空袭上下注，赚取超过 $500k

什么时候 MCP 比 CLI 更有意义？

为什么 XML 标签对 Claude 如此根本

为什么 XML 标签对 Claude 如此根本