停止为获取单个文件而解压整个压缩包——全新 ARCX

发布: 1个月前 (2026年3月20日 GMT+8 04:43)

3 分钟阅读

原文: Dev.to

Source: Dev.to

概览

大多数归档格式会让一个简单的任务变得不必要地昂贵：你只需要一个文件，却必须下载并解压全部内容。
我构建了 ARCX，一种旨在解决此问题的压缩归档格式。

ARCX 将跨文件压缩（如 tar+zstd）与索引随机访问（如 ZIP）相结合，这样你可以在毫秒级别内从大型归档中检索单个文件，而无需解压其余部分。

GitHub：

cargo install arcx

数据集	ARCX 读取字节数	TAR+ZSTD 读取字节数	减少幅度
Python ML	326 KB	63.1 MB	低 198 倍
Build Artifacts	714 KB	140.4 MB	低 202 倍
其他 3 个数据集	≈ 200 ms 每次从约 200 MB 归档中检索单个文件	—	相比 `tar+zstd` 读取数据量最高降低 200 倍
压缩开销	与 `tar+zstd` 相差约 3 %	—	—

现代系统往往只需要 单个文件，且立即可用，而不是整个归档。

这将扫描或完整解压归档的过程替换为一次简单的清单查找加单块读取。

仍处于早期阶段——欢迎反馈。