[Paper] GiVA:梯度感知基用于基于向量的适应
发布: (2026年4月24日 GMT+8 01:48)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.21901v1
概述
论文 GiVA: Gradient‑Informed Bases for Vector‑Based Adaptation 解决了现代深度学习中日益突出的痛点:在不大幅增加内存或计算预算的情况下微调大规模模型。虽然 LoRA(Low‑Rank Adaptation)已成为参数高效微调的事实标准,但更新的 vector‑based 适配器承诺更小的存储占用——代价是需要更高的秩(即更多参数)才能达到 LoRA 级别的性能。GiVA 引入了一种巧妙的基于梯度的初始化方式,使得向量适配器能够以 ≈8× 更少的参数 实现 LoRA 级别的结果,同时保持与 LoRA 相当的训练速度。
关键贡献
- Gradient‑Informed Basis (GiVA):一种系统化的方法,通过使用损失梯度的方向来初始化向量适配器,从而在一开始就显著提升其表达能力。
- Rank Reduction:展示了向量适配器的秩可以比之前的基于向量的方法小至八倍,同时仍能匹配或超越其准确性。
- Broad Empirical Validation:基准测试覆盖 NLP(GLUE、SQuAD、摘要)、生成任务(GPT‑2 微调)以及视觉(ImageNet 分类),显示在各模态上都有一致的提升。
- Training Efficiency:保持每步计算和实际时间与 LoRA 相当,避免了高秩向量适配器常见的速度下降。
- Open‑Source Toolkit:作者发布了一个轻量级的 PyTorch 库,可在最小代码改动下接入现有的 LoRA 风格流水线。
方法论
- 基于向量的适配回顾
- 与 LoRA 中学习低秩矩阵 ΔW = A Bᵀ 不同,向量适配器存储一组 基向量 v₁ … vₖ,并为每个下游任务学习标量系数 α。有效的权重变化是这些向量的线性组合。
- 随机初始化的问题
- 随机初始化的向量与损失曲面正交,迫使优化器“发现”有用的方向,这需要较大的 k(秩)。
- 梯度感知初始化
- GiVA 在一个小的 代理 批次上计算相对于冻结的预训练权重的损失梯度。
- 然后对该梯度矩阵执行 截断 SVD,提取前 k 个奇异向量。这些向量成为初始基 v₁ … vₖ。
- 由于基已经与最陡下降方向对齐,适配器可以用更少的向量实现高性能。
- 训练循环
- 预训练的主干保持冻结。仅在微调期间更新标量系数 α(以及可选的一个小偏置)。
- 可以使用标准的 AdamW(或任何优化器);无需除 LoRA 学习率之外的额外超参数调优。
整个流程是 LoRA 的即插即用替代方案:将 LoRA 模块换成 GiVAAdapter(rank=k) 即可开始使用。
结果与发现
| Task | Baseline (Full FT) | LoRA (rank = 8) | Vector‑Adapter (random, rank = 64) | GiVA (rank = 8) |
|---|---|---|---|---|
| GLUE‑MNLI | 84.5% | 84.2% | 81.0% | 84.0% |
| SQuAD‑v2 F1 | 88.3 | 88.0 | 84.5 | 87.9 |
| GPT‑2 Summarization (ROUGE‑L) | 31.2 | 30.9 | 28.4 | 30.7 |
| ImageNet (Top‑1) | 78.5% | 78.1% | 75.3% | 77.9% |
- 参数节省:GiVA 只使用 LoRA 同等秩所需参数的约 1%,得益于 8× 秩的降低。
- 训练时间:每个 epoch 的实际时钟时间比 LoRA 只慢约 5%,远好于高秩向量适配器出现的 2–3× 慢速。
- 稳定性:在不同随机种子下,GiVA 的方差低于 LoRA 和随机向量适配器,表明其初始化更为稳健。
Practical Implications
- Edge & Mobile Deployments:极小的适配器占用(通常 < 0.1 % 的基础模型大小)使得在存储空间受限的设备上能够携带单个大型基础模型并配备多个任务特定的适配器。
- Rapid Prototyping:开发者可以在几分钟内启动新的微调变体,而无需担心 GPU 内存激增,因为主干模型保持冻结,适配器体积极小。
- Multi‑Task Serving:单台服务器即可托管数十个针对不同客户或语言的 GiVA 适配器,仅在推理时切换标量系数张量。
- Cost‑Effective MLOps:更低的秩意味着需要检查点、版本化和传输的参数更少,从而降低 CI/CD 流程中的存储和网络开销。
- Compatibility:GiVA 可与任何 transformer‑style 模型(BERT、T5、LLaMA、ViT 等)配合使用,并能集成到主流库(🤗 Transformers、PEFT)中。
限制与未来工作
- Gradient Proxy Quality:GiVA 依赖一个具代表性的批次来计算初始梯度。如果代理数据存在偏差,基底可能会遗漏重要方向,从而导致性能不佳。
- Static Basis:基底向量在初始化后会被冻结。作者指出,允许对基底进行少量微调可能进一步缩小与在非常细分任务上进行完整微调之间的差距。
- Scalability of SVD:对完整梯度矩阵进行截断 SVD 计算在极大模型(例如参数量超过 10 B)时会消耗大量内存。未来工作可以探索随机化 SVD 或低秩近似技巧。
- Beyond Transformers:实验主要聚焦于基于 Transformer 的 NLP 与视觉模型;将 GiVA 应用于扩散模型或图神经网络仍是一个待解的问题。
作者
- Neeraj Gangwar
- Rishabh Deshmukh
- Michael Shavlovsky
- Hancao Li
- Vivek Mittal
- Lexing Ying
- Nickvash Kani
论文信息
- arXiv ID: 2604.21901v1
- 类别: cs.CL, cs.AI
- 出版日期: 2026年4月23日
- PDF: Download PDF