[Paper] Quecto-V1: 디바이스 내 법률 검색을 위한 8-bit 양자화 소형 언어 모델의 실증 분석

발행: 3일 전 (2026년 2월 19일 오전 02:29 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.16640v1

Overview

이 논문은 인도 법률 텍스트를 처음부터 학습시킨 124 M 파라미터 소형 언어 모델(SLM)인 Quecto‑V1을 소개합니다. 이 모델은 8‑비트 양자화를 적극적으로 적용하여 일반 노트북이나 저전력 엣지 디바이스에서도 오프라인으로 실행될 수 있습니다. 도메인 특화 학습과 극한 모델 압축을 결합함으로써, 저자들은 오늘날 시장을 장악하고 있는 대규모 클라우드 기반 LLM 없이도 고품질 법률 검색이 가능함을 보여줍니다.

핵심 기여

Domain‑focused SLM: 인도 법률 전용 모델을 처음으로 GPT‑2‑스타일 아키텍처(124 M 파라미터) 위에 구축한 모델.
Full‑precision to 8‑bit quantization pipeline: GGUF 포맷을 사용해 모델 크기를 < 150 MB(≈ 74 % 크기 감소)로 축소하는 전체 정밀도에서 8‑bit 양자화 파이프라인.
Empirical evaluation on legal retrieval: 법령, 형법(IPC), 형사소송법(CrPC), 헌법에 대한 정확히 일치하는 벤치마크를 통해 일반 SLM보다 우수한 성능을 입증한 법률 검색에 대한 실증 평가.
Quantization impact analysis: 양자화 영향 분석: 8‑bit 양자화 후 검색 정확도가 3.5 %만 감소한 것으로 나타남.
On‑device inference: 인터넷 연결 없이 소비자용 CPU에서도 실시간 추론을 구현하여 데이터 주권 문제를 해결하는 디바이스 내 추론.

Methodology

Data Curation – 저자들은 인도 법령의 전체 텍스트를 스크래핑하고 정제하여, 법률 용어와 정의에 중점을 둔 약 2 GB 규모의 코퍼스를 만들었습니다.
Model Architecture – 일반 목적 코퍼스에 대한 사전 학습을 배제하고, 법률 언어의 어휘 밀도를 높이기 위해 12층, hidden size 768인 기본 GPT‑2 디코더 스택을 처음부터 학습시켰습니다.
Training Regimen – 표준 다음 토큰 예측 방식에 AdamW 옵티마이저와 학습률 워밍업을 적용했으며, 단일 GPU에서 총 300 k 스텝을 수행했습니다.
Post‑Training Quantization – 수렴 후, 모델 가중치를 GGUF 툴체인을 사용해 8‑bit 정수로 양자화했으며, 숫자 정밀도를 유지하기 위해 채널별 스케일링을 포함했습니다.
Evaluation Suite – 정확히 일치하는 검색 작업(예: “IPC에서 ‘살인’의 정의는 무엇인가?”)과 보다 넓은 제로샷 QA 벤치마크를 구성하여, 유사한 규모의 일반 SLM과 비교 평가했습니다.

결과 및 발견

모델	크기 (MB)	정확도 (Exact‑Match)	검색 지연 시간 (CPU)
Quecto‑V1 (FP32)	470	92.1 %	1.8 s
Quecto‑V1 (8‑bit)	148	88.6 %	0.9 s
Generic GPT‑2 (124 M)	470	71.4 %	1.9 s
TinyBERT‑Legal (30 M)	115	65.2 %	0.7 s

크기 감소: 8‑bit 양자화는 용량을 약 74 % 줄이면서도 전체 정밀도 모델 대비 정확도를 3.5 % 이내로 유지합니다.
도메인 이점: 양자화된 Quecto‑V1조차도 법령 정의 검색에서 일반 GPT‑2보다 절대 정확도가 17 % 이상 높습니다.
지연 시간: 양자화는 중급 CPU (Intel i5‑10400)에서 추론 속도를 약 2배 가속합니다.

이러한 수치는 작업이 전문 지식 베이스에 한정될 때 공격적인 양자화가 모델을 약화시키지 않음을 확인합니다.

Practical Implications

오프라인 법률 어시스턴트 – 로펌, NGO, 혹은 정부 기관은 Quecto‑V1을 데스크톱 도구, 모바일 앱, 엣지 디바이스에 내장하여 민감한 사건 데이터가 현장을 떠나지 않도록 보장할 수 있습니다.
비용 효율적인 배포 – 고가의 GPU 기반 추론 서버가 필요 없으며, 단일 CPU만으로도 일상적인 법령 조회를 위해 수십 명의 동시 사용자를 지원할 수 있습니다.
데이터 주권 – 특히 인도 개인 데이터 보호법(Personal Data Protection Bill)과 같이 엄격한 데이터 프라이버시 규제가 있는 관할 구역에서 모델이 완전히 로컬에서 실행된다는 점이 중요합니다.
특정 분야에 대한 빠른 프로토타이핑 – 워크플로우(도메인‑특화 코퍼스 → 소형 트랜스포머 → 8‑bit 양자화)는 의료, 금융, 컴플라이언스 등 규제된 다른 분야에도 그대로 적용할 수 있습니다.
오픈소스 잠재력 – 관용적인 라이선스로 공개될 경우, 이 모델은 커뮤니티가 유지하는 법률 지식 베이스가 되어 독점 클라우드 API에 대한 의존도를 낮출 수 있습니다.

제한 사항 및 향후 작업

지식 범위 – Quecto‑V1은 법령 텍스트만을 다루며, 판례, 논평 및 변화하는 법학 이론이 부족해 복잡한 법적 추론에 대한 유용성이 제한됩니다.
평가 범위 – 벤치마크는 정확히 일치하는 검색에 초점을 맞추고 있어, 보다 정교한 질문‑응답, 추론, 혹은 다중 턴 대화 평가가 포함되지 않습니다.
양자화 트레이드오프 – 8‑비트 양자화는 검색에 잘 작동하지만, 세밀한 확률 추정(예: 신뢰도 점수)이 필요한 작업에서는 성능 저하가 발생할 수 있습니다.
향후 방향 – 저자들은 코퍼스를 확장하여 사법 의견을 포함하고, 혼합 정밀도(4‑비트) 양자화를 탐색하며, 검색 강화 생성(RAG)을 통합해 SLM을 외부 지식베이스와 결합할 것을 제안합니다.

저자

Subrit Dikshit

논문 정보

arXiv ID: 2602.16640v1
분류: cs.CL
발행일: 2026년 2월 18일
PDF: PDF 다운로드

[Paper] Quecto-V1: 디바이스 내 법률 검색을 위한 8-bit 양자화 소형 언어 모델의 실증 분석

Overview

핵심 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[Paper] 이 언어는 무엇인가요? Ask Your Tokenizer

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

[Paper] 페르시아어 언어 모델에서 사실‑개념 격차를 밝히다