Show HN: Prompt-to-Excalidraw 데모 with Gemma 4 E2B 브라우저에서 (3.1GB)
Source: Hacker News
TurboQuant Prompt → Diagram
어떤 다이어그램이든지 설명하면 Gemma 4 E2B가 브라우저에서 바로 Excalidraw 형식으로 생성합니다 — 데스크톱 Chrome 134+ 전용.
- LLM은 원시 Excalidraw JSON(~5,000 토큰) 대신 압축된 코드(~50 토큰)를 출력합니다.
- TurboQuant 알고리즘(극좌표 + QJL)은 KV 캐시를 약 2.4배 압축해 더 긴 대화를 GPU 메모리에 담을 수 있게 합니다.
- WebGPU 서브그룹을 필요로 하며(현재 Safari/iOS는 지원되지 않음) 약 3 GB RAM이 필요합니다(모바일 브라우저는 이보다 훨씬 낮은 한도를 가짐).
이 데모는 TurboQuant 알고리즘을 WGSL 컴퓨트 셰이더로 재구현하여 초당 30+ 토큰 속도로 GPU에서 실행됩니다. 동료 프로젝트인 turboquant‑wasm npm 패키지는 동일한 알고리즘을 WASM + SIMD 형태로 구현해 CPU 측 벡터 검색에 사용됩니다.