可搜索的 JSON 压缩:页面级随机访问 + 毫秒级查找(在我们的数据集上比 Zstd 更小)
Source: Dev.to

为什么这很重要:隐藏的 “解压+解析 税”
如果你把 NDJSON 存成 zstd,大多数查询仍然会:
- 读取大块数据
- 完全解压
- 解析 JSON
- 扫描出你需要的字段/值
即使数据量不大,CPU + I/O 模式 在大规模时也会变得非常残酷。
SEE 针对以下工作负载进行优化,这些工作负载需要你反复执行:
- exists / pos / eq‑类型查询
- 随机访问
- 低延迟,且不需要完整解压
SEE 是什么(60 秒速读)
SEE 是一种 基于页面、感知模式 的格式:
- 页面级布局,支持随机访问
- Bloom + 跳过,避免触碰无关页面(高跳过率)
- 感知模式编码(结构 + 增量 + 在需要时使用字典)
它的设计目标是同时降低:
- 数据税(存储/传输)
- CPU 税(解压/解析)
权衡在于,SEE 优化的是 低 I/O 与低延迟,而不一定是绝对最小的体积(不过在某些数据集上也能更小)。
KPI 快照(公开演示)
以下数据来自演示包:
- 综合大小比例: ≈ 19.5 % 的原始数据
- 查询延迟(当前): p50 ≈ 0.18 ms / p95 ≈ 0.28 ms / p99 ≈ 0.34 ms
- 跳过比例: 有值时 ≈ 0.99 / 无值时 ≈ 0.992
- Bloom 密度: ≈ 0.30
“综合”指的是在基准数据集上 SEE 产物的总体占用空间。

先证后发(无需会议即可验证)
我特意提供 可复现的压缩包:
-
演示 ZIP(≈10 分钟)
- 预编译 wheel + 示例
.see文件 - 演示脚本,输出 KPI(比例/跳过/Bloom/p50–p99)
- 单页 PDF
- 预编译 wheel + 示例
-
DD 包(审计 / 可复现产物)
- 运行摘要 +
run_metrics.json - 验证清单 (
pack_verify.txt) - 为技术尽职调查而设计
- 运行摘要 +
最近的稳健性里程碑:跨多个数据集的严格解码不匹配检查为 0(decode_mismatch_count=0, decode_extended_mismatch_count=0, 审计通过)。
快速开始(演示)
pip install see_proto
python samples/quick_demo.py
脚本会输出:
- 压缩比例
- 跳过 / Bloom 统计
- 查询延迟(p50/p95/p99)
链接
- GitHub 仓库:
- 发布版本(v0.1.1):
如需 在 NDA 下的正式评估(DD 包 / 更深入的材料):
注意:公司邮箱更佳,但也欢迎私信(首次联系不需要提供机密数据)。
我在寻找什么
SEE 不是 SaaS 产品。我正在探索 战略收购 或 独家授权,面向有明确集成路径的团队。
为了保持评估的高信噪比,我每月只进行 少量 NDA 评估。如果你所在的是数据平台 / 基础设施 / 存储团队,并且能看到它的落地场景,欢迎联系我。