[Paper] Quecto-V1：8位量化小型语言模型在设备端法律检索的实证分析

发布: 3天前 (2026年2月19日 GMT+8 01:29)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.16640v1

概览

本文介绍了 Quecto‑V1，一个拥有 124 M 参数的小型语言模型（SLM），该模型从头在印度法律文本上进行训练，然后进行激进的 8 位量化，使其能够在普通笔记本电脑甚至低功耗边缘设备上离线运行。通过将领域特定训练与极端模型压缩相结合，作者展示了在不依赖主导市场的庞大云端大型语言模型的情况下，也能实现高质量的法律检索。

关键贡献

Domain‑focused SLM: 首个仅针对印度法律的模型，基于 GPT‑2‑style 架构（124 M 参数）。
Full‑precision to 8‑bit quantization pipeline: 使用 GGUF 格式将模型压缩至 < 150 MB（约 74 % 大小缩减）。
Empirical evaluation on legal retrieval: 在法规、IPC、CrPC 和宪法上的精确匹配基准测试显示出相较通用 SLM 的更佳性能。
Quantization impact analysis: 消融实验表明，8‑bit 量化后检索准确率仅下降 3.5 %。
On‑device inference: 展示了在消费级 CPU 上离线实时推理，解决了数据主权问题。

方法论

数据策划 – 作者抓取并清理了印度法规的全文，创建了约 2 GB 的语料库，强调法律术语和定义。
模型架构 – 使用普通的 GPT‑2 解码器堆叠（12 层，768 隐藏单元）从头训练，避免在通用语料上进行预训练，以保持法律语言的词汇密度。
训练方案 – 标准的下一个标记预测，使用 AdamW 优化器、学习率预热，在单个 GPU 上共进行 300 k 步。
后训练量化 – 收敛后，使用 GGUF 工具链将模型权重量化为 8‑bit 整数，并采用每通道缩放以保持数值保真度。
评估套件 – 一组精确匹配检索任务（例如 “IPC 中‘homicide’的定义是什么？”）以及更广泛的零样本 QA 基准，用于与相似规模的通用语言模型进行比较。

结果与发现

Model	Size (MB)	Exact‑Match Accuracy	Retrieval Latency (CPU)
Quecto‑V1 (FP32)	470	92.1 %	1.8 s
Quecto‑V1 (8‑bit)	148	88.6 %	0.9 s
Generic GPT‑2 (124 M)	470	71.4 %	1.9 s
TinyBERT‑Legal (30 M)	115	65.2 %	0.7 s

Size reduction: 8‑bit quantization 将模型体积降低约 74 %，而准确率仅比 full‑precision model 低 3.5 %。
Domain advantage: 即使是量化后的 Quecto‑V1，在 statutory definition retrieval 任务上也比通用的 Generic GPT‑2 高出 > 17 % 的绝对准确率。
Latency: 量化还能在 mid‑range CPU (Intel i5‑10400) 上将推理速度提升约 2 倍。

这些数据表明，在任务严格限定于特定知识库时，激进的 quantization 并不会导致模型性能崩溃。

实际影响

离线法律助理 – 律师事务所、非政府组织或政府机构可以将 Quecto‑V1 嵌入桌面工具、移动应用或边缘设备，确保敏感案件数据永不离开本地。
成本效益高的部署 – 无需昂贵的 GPU 推理服务器；单个 CPU 即可为数十名并发用户提供常规法规查询服务。
数据主权 – 在数据隐私法规严格的司法辖区（例如印度《个人数据保护法案》）尤为重要，因为模型完全在本地运行。
面向细分领域的快速原型 – 工作流（特定领域语料库 → 小型 Transformer → 8 位量化）可复制到医疗、金融或合规等其他受监管领域。
开源潜力 – 若以宽松许可证发布，该模型可成为社区维护的法律知识库，降低对专有云 API 的依赖。

限制与未来工作

知识范围 – Quecto‑V1 仅覆盖法定文本；缺乏判例法、评论和不断演变的法理学，这限制了其在复杂法律推理中的实用性。
评估范围 – 基准测试侧重于精确匹配检索；缺乏更细致的问答、推理或多轮对话评估。
量化权衡 – 虽然 8‑bit 在检索中表现良好，但需要细粒度概率估计（如置信度评分）的任务可能受到影响。
未来方向 – 作者建议将语料库扩展至包含司法意见，探索混合精度（4‑bit）量化，并整合检索增强生成，以将 SLM 与外部知识库结合。

作者

Subrit Dikshit

论文信息

arXiv ID: 2602.16640v1
分类: cs.CL
出版时间: 2026年2月18日
PDF: 下载 PDF

[Paper] Quecto-V1：8位量化小型语言模型在设备端法律检索的实证分析

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] 这是什么语言？问问你的 Tokenizer

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

[Paper] 揭示波斯语语言模型中的事实-概念鸿沟