[Paper] QSLM：一种面向性能和内存感知的量化框架，采用分层搜索策略用于Spike驱动语言模型

发布: 1个月前 (2026年1月2日 GMT+8 21:05)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.00679v1

（请提供需要翻译的正文内容，我将为您翻译成简体中文。）

概述

本文介绍了 QSLM，一个自动量化框架，可在不牺牲准确性的情况下压缩基于脉冲的语言模型（SLM）。通过同时优化性能和内存，QSLM 使在低功耗、资源受限的边缘设备上运行复杂语言模型成为可能。

自动化、分层量化（全局 → 块 → 模块级）能够适应任何预训练 SLM 的层次结构。
多目标权衡函数在保持任务级准确性的同时平衡推理延迟、功耗和内存使用。
敏感度感知层分析快速识别网络中哪些部分可以进行激进量化，哪些需要更高精度。
实证验证在情感分类（SST‑2）和语言生成（WikiText‑2）上显示，内存可降低最高 86.5 %，功耗约 ≈20 %，且准确率/困惑度下降不足 2 %。

架构分析 – QSLM 解析 SLM，构建层 → 块 → 模块的层次结构，并使用轻量级校准集测量每个组件对量化的敏感性。
分层搜索策略 –
- 全局层级：在整个模型上采用粗粒度位宽（例如 8 位）。
- 块层级：根据块的敏感度得分细化各个 transformer 块的位宽。
- 模块层级：对关键子模块（例如注意力头、前馈网络）进行微调，以更高精度（如有必要）。
多目标优化 – 加权成本函数根据用户定义的约束（最大内存、目标延迟、可接受的精度损失）评估候选量化方案。优化器选择最能满足所有约束的配置。
后训练量化 – 选定的方案在无需重新训练的情况下直接应用，保持部署流水线快速且轻量。

指标	基线（未量化）	QSLM‑量化	相对变化
内存占用	100 %	13.5 % (‑86.5 %)	↓
推理功耗	100 %	≈80 % (‑20 %)	↓
SST‑2 准确率	86.4 %	84.4 %	–2 %
WikiText‑2 困惑度	22.5	23.2	+0.7

这些结果表明，QSLM 能显著缩小模型体积和能耗，同时将任务性能保持在原始模型的几个百分点之内——完全在边缘应用的常规容差范围内。

校准数据依赖 – 敏感性分析依赖于具有代表性的数据集；若出现不匹配，可能导致对未见输入的位宽选择次优。
固定量化方案 – QSLM 目前仅支持均匀整数量化；探索混合精度或非均匀方案可能带来进一步提升。
对大规模 LLM 的可扩展性 – 虽然在脉冲驱动模型上效果显著，但将相同的分层搜索应用于全尺度 Transformer LLM 时，可能需要额外的启发式方法以保持搜索时间可控。

作者建议将 QSLM 扩展为支持动态运行时量化，并结合面向硬件的成本模型，以适配新兴的神经形态加速器。