可搜索的 JSON 压缩:页面级随机访问 + 毫秒级查找(在我们的数据集上比 Zstd 更小)

发布: (2026年2月20日 GMT+8 03:12)
4 分钟阅读
原文: Dev.to

Source: Dev.to

Searchable JSON 压缩的封面图:页面级随机访问 + 毫秒级查询(在我们的数据集上比 Zstd 更小)

为什么这很重要:隐藏的 “解压+解析 税”

如果你把 NDJSON 存成 zstd,大多数查询仍然会:

  • 读取大块数据
  • 完全解压
  • 解析 JSON
  • 扫描出你需要的字段/值

即使数据量不大,CPU + I/O 模式 在大规模时也会变得非常残酷。

SEE 针对以下工作负载进行优化,这些工作负载需要你反复执行:

  • exists / pos / eq‑类型查询
  • 随机访问
  • 低延迟,且不需要完整解压

SEE 是什么(60 秒速读)

SEE 是一种 基于页面感知模式 的格式:

  • 页面级布局,支持随机访问
  • Bloom + 跳过,避免触碰无关页面(高跳过率)
  • 感知模式编码(结构 + 增量 + 在需要时使用字典)

它的设计目标是同时降低:

  • 数据税(存储/传输)
  • CPU 税(解压/解析)

权衡在于,SEE 优化的是 低 I/O 与低延迟,而不一定是绝对最小的体积(不过在某些数据集上也能更小)。

KPI 快照(公开演示)

以下数据来自演示包:

  • 综合大小比例: ≈ 19.5 % 的原始数据
  • 查询延迟(当前): p50 ≈ 0.18 ms / p95 ≈ 0.28 ms / p99 ≈ 0.34 ms
  • 跳过比例: 有值时 ≈ 0.99 / 无值时 ≈ 0.992
  • Bloom 密度: ≈ 0.30

“综合”指的是在基准数据集上 SEE 产物的总体占用空间。

KPI 图表

先证后发(无需会议即可验证)

我特意提供 可复现的压缩包

  1. 演示 ZIP(≈10 分钟)

    • 预编译 wheel + 示例 .see 文件
    • 演示脚本,输出 KPI(比例/跳过/Bloom/p50–p99)
    • 单页 PDF
  2. DD 包(审计 / 可复现产物)

    • 运行摘要 + run_metrics.json
    • 验证清单 (pack_verify.txt)
    • 为技术尽职调查而设计

最近的稳健性里程碑:跨多个数据集的严格解码不匹配检查为 0decode_mismatch_count=0, decode_extended_mismatch_count=0, 审计通过)。

快速开始(演示)

pip install see_proto
python samples/quick_demo.py

脚本会输出:

  • 压缩比例
  • 跳过 / Bloom 统计
  • 查询延迟(p50/p95/p99)

链接

  • GitHub 仓库:
  • 发布版本(v0.1.1):

如需 在 NDA 下的正式评估(DD 包 / 更深入的材料):

注意:公司邮箱更佳,但也欢迎私信(首次联系不需要提供机密数据)。

我在寻找什么

SEE 不是 SaaS 产品。我正在探索 战略收购独家授权,面向有明确集成路径的团队。

为了保持评估的高信噪比,我每月只进行 少量 NDA 评估。如果你所在的是数据平台 / 基础设施 / 存储团队,并且能看到它的落地场景,欢迎联系我。

0 浏览
Back to Blog

相关文章

阅读更多 »

Apex B. OpenClaw,局部嵌入

本地嵌入用于私有记忆搜索。默认情况下,OpenClaw 的 memory search 会将文本发送到外部的 embedding API,通常是 Anthropic 或 OpenAI……

Apex 1. OpenClaw, 供应商历史

从 ChatGPT、Anthropic 和 Google Gemini 导入聊天记录。使用 OpenClaw,你可以做的最强大的事情之一是 bootstrap 你的记忆……