[Paper] GRASP:分组激活共享参数化用于参数高效微调和稳健推理的Transformer
Source: arXiv - 2512.04296v1
概述
本文提出了 GRASP(Grouped Activation Shared Parameterization),一种面向大规模 Transformer 模型的参数高效微调(PEFT)技术。通过对 token 激活进行分组,并为每个组学习一小套共享的缩放/平移参数,GRASP 大幅削减可训练权重的数量,同时仍能捕获任务特定的细微差别。其随机扩展 StochGRASP 进一步对权重不确定性建模,使微调后的模型对硬件层面的噪声更具韧性——这对于边缘 AI 部署尤为有吸引力。
关键贡献
- 分组调制:将每个 token 表示划分为 K ≪ D 组,并为每组学习共享的尺度‑平移向量,显著降低可训练参数量。
- StochGRASP:在共享参数上加入高斯扰动并使用噪声感知损失,使模型在推理时对权重噪声具有鲁棒性。
- 参数效率:相较于 LoRA、BitFit 等流行 PEFT 方法,实现了高达 10× 更少的可训练参数。
- 竞争性能:在 GLUE(RoBERTa‑base/large)和 E2E NLG(GPT‑2 Medium)上匹配或超越最先进的 PEFT 结果。
- 对硬件变异性的鲁棒性:在模拟推理噪声下表现出一致的精度提升,使 StochGRASP 适用于低功耗新兴 AI 芯片。
方法论
-
激活分组 – 对选定的 Transformer 层,将每个 token 的 D 维隐藏向量划分为 K 个相邻组(例如 D = 768,K = 8 → 每组 96 维)。
-
共享缩放与平移 – 每组拥有一个可学习的缩放向量 γₖ 和平移向量 βₖ。微调时,原始隐藏向量 h 被转换为:
[ \tilde{h}{i,,g} = \gamma_g \odot h{i,,g} + \beta_g ]
其中 g 为组索引,i 为 token 索引。
-
参数计数 – 与更新整个权重矩阵(数百万参数)不同,仅训练 2 × K × (D/K) 个向量,实现数量级的参数削减。
-
StochGRASP – 用高斯分布(均值 + σ·ε)取代确定性的 γ、β。损失函数加入期望噪声项,促使模型学习在随机扰动下仍保持稳定的参数。
-
训练 – 标准下游任务损失(如交叉熵)加上惩罚随机参数方差的正则项。微调流程与其他 PEFT 方法相同,仅需少量 epoch。
结果与发现
| 模型/数据集 | 可训练参数比例 | GLUE 平均分 | GPT‑2 NLG BLEU |
|---|---|---|---|
| LoRA (baseline) | 0.5 % of total | 84.2 | 27.1 |
| BitFit | 0.2 % | 83.8 | 26.9 |
| GRASP | 0.05 % | 84.5 (↑0.3) | 27.3 (↑0.2) |
| StochGRASP | 0.07 % | 84.7 (↑0.5) | 27.6 (↑0.5) |
- 参数削减:GRASP 使用的可训练权重约为 LoRA 的 1/10,且精度相当或更佳。
- 噪声鲁棒性:在推理时向模型权重注入合成高斯噪声(σ = 0.01–0.05),StochGRASP 的精度下降 <1 %,而确定性基线下降 >3 %。
- 可扩展性:在 RoBERTa‑base(125 M)和 RoBERTa‑large(355 M)上的实验表明,分组策略无需针对模型规模重新调节 K,即可平滑扩展。
实际意义
- 边缘部署:极小的可训练占用意味着微调模型可存储并更新于闪存受限的设备(如微控制器、ASIC),仍能受益于大型预训练骨干。
- 能效推理:StochGRASP 对权重噪声的鲁棒性与新兴低精度 AI 加速器(如模拟存算)固有的随机性相匹配,降低了昂贵纠错电路的需求。
- 快速迭代:仅有少量参数发生变化,开发者可在同一基模型上尝试多个下游任务,无需重新训练全网,缩短上市时间。
- 兼容性:GRASP 可无缝接入现有 Transformer 库(Hugging Face、PyTorch),只需指定分组层和组数,即可使用。
局限性与未来工作
- 分组粒度权衡:过于激进的分组(极小 K)可能导致复杂任务欠拟合;论文提供了有限的敏感性分析,自动化分组大小选择仍待研究。
- 硬件验证:鲁棒性仅在模拟噪声下展示,需在模拟或低精度芯片上进行实测以确认收益。
- 向视觉 Transformer 的扩展:当前工作聚焦于 NLP 模型,将 GRASP 应用于 ViT 或多模态 Transformer 可能开启新的效率前沿。
总体而言,GRASP 及其随机变体在参数效率与硬件韧性之间提供了引人注目的平衡,是帮助开发者将大规模 Transformer 能力带入资源受限环境的实用工具。
作者
- Malyaban Bal
- Abhronil Sengupta
论文信息
- arXiv ID: 2512.04296v1
- Categories: cs.LG, cs.NE
- Published: December 3, 2025
- PDF: Download PDF