可搜索的 JSON 压缩：页面级随机访问 + 毫秒级查找（在我们的数据集上比 Zstd 更小）

发布: 3天前 (2026年2月20日 GMT+8 03:12)

4 分钟阅读

原文: Dev.to

Source: Dev.to

Searchable JSON 压缩的封面图：页面级随机访问 + 毫秒级查询（在我们的数据集上比 Zstd 更小）

为什么这很重要：隐藏的 “解压+解析税”

如果你把 NDJSON 存成 zstd，大多数查询仍然会：

读取大块数据
完全解压
解析 JSON
扫描出你需要的字段/值

即使数据量不大，CPU + I/O 模式 在大规模时也会变得非常残酷。

SEE 针对以下工作负载进行优化，这些工作负载需要你反复执行：

exists / pos / eq‑类型查询
随机访问
低延迟，且不需要完整解压

SEE 是什么（60 秒速读）

SEE 是一种 基于页面、感知模式 的格式：

页面级布局，支持随机访问
Bloom + 跳过，避免触碰无关页面（高跳过率）
感知模式编码（结构 + 增量 + 在需要时使用字典）

它的设计目标是同时降低：

数据税（存储/传输）
CPU 税（解压/解析）

权衡在于，SEE 优化的是 低 I/O 与低延迟，而不一定是绝对最小的体积（不过在某些数据集上也能更小）。

KPI 快照（公开演示）

以下数据来自演示包：

综合大小比例： ≈ 19.5 % 的原始数据
查询延迟（当前）： p50 ≈ 0.18 ms / p95 ≈ 0.28 ms / p99 ≈ 0.34 ms
跳过比例： 有值时 ≈ 0.99 / 无值时 ≈ 0.992
Bloom 密度： ≈ 0.30

“综合”指的是在基准数据集上 SEE 产物的总体占用空间。

KPI 图表

先证后发（无需会议即可验证）

我特意提供 可复现的压缩包：

演示 ZIP（≈10 分钟）
- 预编译 wheel + 示例 .see 文件
- 演示脚本，输出 KPI（比例/跳过/Bloom/p50–p99）
- 单页 PDF
DD 包（审计 / 可复现产物）
- 运行摘要 + run_metrics.json
- 验证清单 (pack_verify.txt)
- 为技术尽职调查而设计

最近的稳健性里程碑：跨多个数据集的严格解码不匹配检查为 0（decode_mismatch_count=0, decode_extended_mismatch_count=0, 审计通过）。

快速开始（演示）

pip install see_proto
python samples/quick_demo.py

脚本会输出：

压缩比例
跳过 / Bloom 统计
查询延迟（p50/p95/p99）

链接

GitHub 仓库：
发布版本（v0.1.1）：

如需 在 NDA 下的正式评估（DD 包 / 更深入的材料）：

注意：公司邮箱更佳，但也欢迎私信（首次联系不需要提供机密数据）。

我在寻找什么

SEE 不是 SaaS 产品。我正在探索 战略收购 或 独家授权，面向有明确集成路径的团队。

为了保持评估的高信噪比，我每月只进行 少量 NDA 评估。如果你所在的是数据平台 / 基础设施 / 存储团队，并且能看到它的落地场景，欢迎联系我。

可搜索的 JSON 压缩：页面级随机访问 + 毫秒级查找（在我们的数据集上比 Zstd 更小）

为什么这很重要：隐藏的 “解压+解析税”

SEE 是什么（60 秒速读）

KPI 快照（公开演示）

先证后发（无需会议即可验证）

快速开始（演示）

链接

我在寻找什么

相关文章

Apex B. OpenClaw，局部嵌入

Apex 1. OpenClaw, 供应商历史

我使用 Cloudflare R2 + Turso 构建了开源的 “Microsoft Edge Drop” 替代品

从静态资源到动态合成：掌握 DALL‑E 3 与 Vercel AI SDK 在 Next.js 中的应用

为什么这很重要：隐藏的 “解压+解析 税”

SEE 是什么（60 秒速读）

KPI 快照（公开演示）

先证后发（无需会议即可验证）

快速开始（演示）

链接

我在寻找什么

相关文章

Apex B. OpenClaw，局部嵌入

Apex 1. OpenClaw, 供应商历史

我使用 Cloudflare R2 + Turso 构建了开源的 “Microsoft Edge Drop” 替代品

从静态资源到动态合成：掌握 DALL‑E 3 与 Vercel AI SDK 在 Next.js 中的应用

为什么这很重要：隐藏的 “解压+解析税”