검색 가능한 JSON 압축: 페이지 수준 무작위 접근 + 밀리초 조회 (우리 데이터셋에서 Zstd보다 작음)
Source: Dev.to

Why this matters: the hidden “decompress+parse tax”
만약 NDJSON을 zstd 로 저장한다면, 대부분의 쿼리는 여전히 다음을 수행합니다:
- 큰 청크를 읽음
- 전체를 압축 해제
- JSON 파싱
- 필요한 필드/값을 스캔
데이터 크기가 작아도 CPU + I/O 패턴은 규모가 커질수록 매우 가혹해집니다.
SEE는 다음과 같은 워크로드를 목표로 합니다:
- exists / pos / eq‑스타일 쿼리
- 랜덤 액세스
- 전체 압축 해제 없이 저지연
What SEE is (in 60 seconds)
SEE는 페이지 기반, 스키마 인식 포맷입니다:
- 페이지 레벨 레이아웃을 이용한 랜덤 액세스
- Bloom + skip을 통해 관련 없는 페이지를 건너뛰어 높은 skip 비율 달성
- 스키마 인식 인코딩 (구조 + 델타 + 사전, 필요할 경우)
이는 다음 두 가지를 줄이도록 설계되었습니다:
- 데이터 비용 (스토리지/전송)
- CPU 비용 (압축 해제/파싱)
트레이드오프는 SEE가 저 I/O와 저 지연에 최적화된다는 점이며, 항상 절대적인 최소 크기를 목표로 하지는 않지만(데이터셋에 따라 크기에서도 이길 수 있음) 그렇습니다.
KPI snapshot (public demo)
데모 팩에서 공개된 수치입니다:
- Combined size ratio: ≈ 19.5 % of raw
- Lookup latency (present): p50 ≈ 0.18 ms / p95 ≈ 0.28 ms / p99 ≈ 0.34 ms
- Skip ratio: present ≈ 0.99 / absent ≈ 0.992
- Bloom density: ≈ 0.30
“Combined”는 벤치마크된 데이터셋에 대한 SEE 아티팩트 전체 용량을 의미합니다.

Proof‑first distribution (so you can verify without meetings)
나는 재현 가능한 팩을 의도적으로 제공합니다:
-
Demo ZIP (≈10 min)
- 사전 빌드된 wheel + 샘플
.see아티팩트 - KPI(비율/skip/bloom/p50–p99)를 출력하는 데모 스크립트
- 원페이지 PDF
- 사전 빌드된 wheel + 샘플
-
DD Pack (audit / repro artifacts)
- 실행 요약 +
run_metrics.json - 검증 체크리스트 (
pack_verify.txt) - 기술 실사를 위해 설계
- 실행 요약 +
최근 견고성 마일스톤: 다중 데이터셋에 대한 엄격한 decode‑mismatch 검사 = 0 (decode_mismatch_count=0, decode_extended_mismatch_count=0, audit PASS).
Quick start (demo)
pip install see_proto
python samples/quick_demo.py
스크립트는 다음을 출력합니다:
- 압축 비율
- skip/bloom 통계
- 조회 지연시간 (p50/p95/p99)
Links
- GitHub repo:
- Release (v0.1.1):
NDA 하에 공식 평가(DD 팩 / 심층 자료)를 원하시면:
참고: 회사 이메일이 선호되지만, DM도 환영합니다(첫 연락 시 기밀 데이터는 필요하지 않습니다).
What I’m looking for
SEE는 SaaS 제품이 아닙니다. 나는 전략적 인수 혹은 독점 라이선스를 찾고 있으며, 명확한 통합 경로를 가진 팀과 협력하고 싶습니다.
평가의 신호 강도를 높이기 위해 월별 NDA 평가를 소수만 진행합니다. 데이터 플랫폼 / 인프라 / 스토리지 팀에 속해 있고 이 기술이 어디에 들어갈지 상상할 수 있다면, 연락 주세요.