TurboQuant MoE 0.3.0
발행: (2026년 4월 1일 AM 02:30 GMT+9)
2 분 소요
원문: Dev.to
Source: Dev.to
v0.3.0의 주요 기능
- True 3-bit PolarQuant: 물리적 비트‑패킹(8 × 3‑bit을 3 바이트에 저장)으로 기본 KV 저장소를 5.8×‑6.0× 압축하면서 정확도 저하를 <0.1 %로 유지합니다.
- Cross‑Layer KV Delta (14× Compression): 차세대 백엔드로 3‑bit 앵커 레이어와 1‑bit 부호화 델타를 중간 레이어에 저장합니다.
- Speculative KV Prefill: 1‑bit 스케치를 사용해 빠른 초안 KV 생성 및 검증을 수행함으로써 프리필 단계 속도를 2‑3× 가속합니다.
- Temporal Expert Fusion: SVD 기반으로 사용 빈도가 낮은 전문가들을 병합해 MoE 가중치 VRAM의 20‑30 %를 회수하며 품질 손실이 없습니다.
- Cross‑Request Prefix Sharing: 동시 요청 간에 공통 프리픽스의 KV 블록을 공유하는 전역 매니저.
- Fast Walsh‑Hadamard Transform (FWHT): (O(N \log N)) 회전을 이용해 2의 거듭제곱 차원에서 더 빠른 양자화를 제공합니다.
- Cryptographic KV Watermarking: HMAC‑시드 기반 LSB 워터마킹을 KV 스케일에 적용해 귀속 및 감사를 가능하게 합니다.