[Paper] QSLM:一种面向性能和内存感知的量化框架,采用分层搜索策略用于Spike驱动语言模型
发布: (2026年1月2日 GMT+8 21:05)
6 min read
原文: arXiv
Source: arXiv - 2601.00679v1
(请提供需要翻译的正文内容,我将为您翻译成简体中文。)
概述
本文介绍了 QSLM,一个自动量化框架,可在不牺牲准确性的情况下压缩基于脉冲的语言模型(SLM)。通过同时优化性能和内存,QSLM 使在低功耗、资源受限的边缘设备上运行复杂语言模型成为可能。
关键贡献
- 自动化、分层量化(全局 → 块 → 模块级)能够适应任何预训练 SLM 的层次结构。
- 多目标权衡函数在保持任务级准确性的同时平衡推理延迟、功耗和内存使用。
- 敏感度感知层分析快速识别网络中哪些部分可以进行激进量化,哪些需要更高精度。
- 实证验证在情感分类(SST‑2)和语言生成(WikiText‑2)上显示,内存可降低最高 86.5 %,功耗约 ≈20 %,且准确率/困惑度下降不足 2 %。
方法论
- 架构分析 – QSLM 解析 SLM,构建层 → 块 → 模块的层次结构,并使用轻量级校准集测量每个组件对量化的敏感性。
- 分层搜索策略 –
- 全局层级:在整个模型上采用粗粒度位宽(例如 8 位)。
- 块层级:根据块的敏感度得分细化各个 transformer 块的位宽。
- 模块层级:对关键子模块(例如注意力头、前馈网络)进行微调,以更高精度(如有必要)。
- 多目标优化 – 加权成本函数根据用户定义的约束(最大内存、目标延迟、可接受的精度损失)评估候选量化方案。优化器选择最能满足所有约束的配置。
- 后训练量化 – 选定的方案在无需重新训练的情况下直接应用,保持部署流水线快速且轻量。
结果与发现
| 指标 | 基线(未量化) | QSLM‑量化 | 相对变化 |
|---|---|---|---|
| 内存占用 | 100 % | 13.5 % (‑86.5 %) | ↓ |
| 推理功耗 | 100 % | ≈80 % (‑20 %) | ↓ |
| SST‑2 准确率 | 86.4 % | 84.4 % | –2 % |
| WikiText‑2 困惑度 | 22.5 | 23.2 | +0.7 |
这些结果表明,QSLM 能显著缩小模型体积和能耗,同时将任务性能保持在原始模型的几个百分点之内——完全在边缘应用的常规容差范围内。
实际意义
- 边缘 AI 部署 – 开发者现在可以将 SLM 部署到以前因内存不足而无法容纳哪怕是微型 LLM 的微控制器、可穿戴设备或物联网网关上。
- 降低对云的依赖 – 设备端推理降低了延迟并缓解了数据隐私问题,使实时语言理解成为可能(例如语音助手、设备端摘要)。
- 快速设计周期 – 由于 QSLM 在训练后工作,团队可以自动量化新的 SLM 版本,避免传统上阻塞模型压缩流水线的手动反复调优。
- 能源感知调度 – 该框架的功耗感知目标使系统集成商能够在接受轻微精度下降的情况下,换取电池供电产品可观的续航提升。
限制与未来工作
- 校准数据依赖 – 敏感性分析依赖于具有代表性的数据集;若出现不匹配,可能导致对未见输入的位宽选择次优。
- 固定量化方案 – QSLM 目前仅支持均匀整数量化;探索混合精度或非均匀方案可能带来进一步提升。
- 对大规模 LLM 的可扩展性 – 虽然在脉冲驱动模型上效果显著,但将相同的分层搜索应用于全尺度 Transformer LLM 时,可能需要额外的启发式方法以保持搜索时间可控。
作者建议将 QSLM 扩展为支持动态运行时量化,并结合面向硬件的成本模型,以适配新兴的神经形态加速器。
作者
- Rachmad Vidya Wicaksana Putra
- Pasindu Wickramasinghe
- Muhammad Shafique
论文信息
- arXiv ID: 2601.00679v1
- 分类: cs.NE, cs.AI, cs.LG
- 出版日期: 2026年1月2日
- PDF: 下载 PDF