[Paper] GRASP：分组激活共享参数化用于参数高效微调和稳健推理的Transformer

发布: 2个月前 (2025年12月4日 GMT+8 06:17)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.04296v1

概述

本文提出了 GRASP（Grouped Activation Shared Parameterization），一种面向大规模 Transformer 模型的参数高效微调（PEFT）技术。通过对 token 激活进行分组，并为每个组学习一小套共享的缩放/平移参数，GRASP 大幅削减可训练权重的数量，同时仍能捕获任务特定的细微差别。其随机扩展 StochGRASP 进一步对权重不确定性建模，使微调后的模型对硬件层面的噪声更具韧性——这对于边缘 AI 部署尤为有吸引力。

关键贡献

分组调制：将每个 token 表示划分为 K ≪ D 组，并为每组学习共享的尺度‑平移向量，显著降低可训练参数量。
StochGRASP：在共享参数上加入高斯扰动并使用噪声感知损失，使模型在推理时对权重噪声具有鲁棒性。
参数效率：相较于 LoRA、BitFit 等流行 PEFT 方法，实现了高达 10× 更少的可训练参数。
竞争性能：在 GLUE（RoBERTa‑base/large）和 E2E NLG（GPT‑2 Medium）上匹配或超越最先进的 PEFT 结果。
对硬件变异性的鲁棒性：在模拟推理噪声下表现出一致的精度提升，使 StochGRASP 适用于低功耗新兴 AI 芯片。

方法论

激活分组 – 对选定的 Transformer 层，将每个 token 的 D 维隐藏向量划分为 K 个相邻组（例如 D = 768，K = 8 → 每组 96 维）。
共享缩放与平移 – 每组拥有一个可学习的缩放向量 γₖ 和平移向量 βₖ。微调时，原始隐藏向量 h 被转换为：

[ \tilde{h}{i,,g} = \gamma_g \odot h{i,,g} + \beta_g ]

其中 g 为组索引，i 为 token 索引。
参数计数 – 与更新整个权重矩阵（数百万参数）不同，仅训练 2 × K × (D/K) 个向量，实现数量级的参数削减。
StochGRASP – 用高斯分布（均值 + σ·ε）取代确定性的 γ、β。损失函数加入期望噪声项，促使模型学习在随机扰动下仍保持稳定的参数。
训练 – 标准下游任务损失（如交叉熵）加上惩罚随机参数方差的正则项。微调流程与其他 PEFT 方法相同，仅需少量 epoch。

结果与发现

模型/数据集	可训练参数比例	GLUE 平均分	GPT‑2 NLG BLEU
LoRA (baseline)	0.5 % of total	84.2	27.1
BitFit	0.2 %	83.8	26.9
GRASP	0.05 %	84.5 (↑0.3)	27.3 (↑0.2)
StochGRASP	0.07 %	84.7 (↑0.5)	27.6 (↑0.5)

参数削减：GRASP 使用的可训练权重约为 LoRA 的 1/10，且精度相当或更佳。
噪声鲁棒性：在推理时向模型权重注入合成高斯噪声（σ = 0.01–0.05），StochGRASP 的精度下降 <1 %，而确定性基线下降 >3 %。
可扩展性：在 RoBERTa‑base（125 M）和 RoBERTa‑large（355 M）上的实验表明，分组策略无需针对模型规模重新调节 K，即可平滑扩展。

实际意义

边缘部署：极小的可训练占用意味着微调模型可存储并更新于闪存受限的设备（如微控制器、ASIC），仍能受益于大型预训练骨干。
能效推理：StochGRASP 对权重噪声的鲁棒性与新兴低精度 AI 加速器（如模拟存算）固有的随机性相匹配，降低了昂贵纠错电路的需求。
快速迭代：仅有少量参数发生变化，开发者可在同一基模型上尝试多个下游任务，无需重新训练全网，缩短上市时间。
兼容性：GRASP 可无缝接入现有 Transformer 库（Hugging Face、PyTorch），只需指定分组层和组数，即可使用。

局限性与未来工作

分组粒度权衡：过于激进的分组（极小 K）可能导致复杂任务欠拟合；论文提供了有限的敏感性分析，自动化分组大小选择仍待研究。
硬件验证：鲁棒性仅在模拟噪声下展示，需在模拟或低精度芯片上进行实测以确认收益。
向视觉 Transformer 的扩展：当前工作聚焦于 NLP 模型，将 GRASP 应用于 ViT 或多模态 Transformer 可能开启新的效率前沿。

总体而言，GRASP 及其随机变体在参数效率与硬件韧性之间提供了引人注目的平衡，是帮助开发者将大规模 Transformer 能力带入资源受限环境的实用工具。

作者

Malyaban Bal
Abhronil Sengupta

论文信息

arXiv ID: 2512.04296v1
Categories: cs.LG, cs.NE
Published: December 3, 2025
PDF: Download PDF

[Paper] GRASP：分组激活共享参数化用于参数高效微调和稳健推理的Transformer

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] 训练时动作条件化实现高效实时分块

[Paper] 只要剩下的必须为真：过滤驱动LLMs的推理，塑造多样性

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强