검색 가능한 JSON 압축: 페이지 수준 무작위 접근 + 밀리초 조회 (우리 데이터셋에서 Zstd보다 작음)

발행: 3일 전 (2026년 2월 20일 오전 04:12 GMT+9)

4 분 소요

Source: Dev.to

Cover image for Searchable JSON compression: page-level random access + ms lookups (and smaller than Zstd on our dataset)

Why this matters: the hidden “decompress+parse tax”

만약 NDJSON을 zstd 로 저장한다면, 대부분의 쿼리는 여전히 다음을 수행합니다:

데이터 크기가 작아도 CPU + I/O 패턴은 규모가 커질수록 매우 가혹해집니다.

SEE는 다음과 같은 워크로드를 목표로 합니다:

SEE는 페이지 기반, 스키마 인식 포맷입니다:

이는 다음 두 가지를 줄이도록 설계되었습니다:

트레이드오프는 SEE가 저 I/O와 저 지연에 최적화된다는 점이며, 항상 절대적인 최소 크기를 목표로 하지는 않지만(데이터셋에 따라 크기에서도 이길 수 있음) 그렇습니다.

데모 팩에서 공개된 수치입니다:

“Combined”는 벤치마크된 데이터셋에 대한 SEE 아티팩트 전체 용량을 의미합니다.

KPI chart

나는 재현 가능한 팩을 의도적으로 제공합니다:

Demo ZIP (≈10 min)
- 사전 빌드된 wheel + 샘플 .see 아티팩트
- KPI(비율/skip/bloom/p50–p99)를 출력하는 데모 스크립트
- 원페이지 PDF
DD Pack (audit / repro artifacts)
- 실행 요약 + run_metrics.json
- 검증 체크리스트 (pack_verify.txt)
- 기술 실사를 위해 설계

최근 견고성 마일스톤: 다중 데이터셋에 대한 엄격한 decode‑mismatch 검사 = 0 (decode_mismatch_count=0, decode_extended_mismatch_count=0, audit PASS).

pip install see_proto
python samples/quick_demo.py

스크립트는 다음을 출력합니다:

SEE는 SaaS 제품이 아닙니다. 나는 전략적 인수 혹은 독점 라이선스를 찾고 있으며, 명확한 통합 경로를 가진 팀과 협력하고 싶습니다.

평가의 신호 강도를 높이기 위해 월별 NDA 평가를 소수만 진행합니다. 데이터 플랫폼 / 인프라 / 스토리지 팀에 속해 있고 이 기술이 어디에 들어갈지 상상할 수 있다면, 연락 주세요.