[Paper] PEFT-Bench：参数高效微调方法基准

发布: 2个月前 (2025年11月26日 GMT+8 19:18)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21285v1

概览

大型语言模型（LLM）能够取得令人印象深刻的效果，但其庞大的规模使得微调在计算、内存和碳足迹方面成本高昂。论文 PEFT‑Bench 引入了一个可复现的端到端基准，帮助研究者和工程师在众多任务和模型上比较 参数高效微调（PEFT）技术，同时考虑速度、内存和可训练参数数量。

PEFT‑Bench 套件：一个统一框架，自动完成数据加载、模型准备、训练和评估，支持六种流行的 PEFT 方法在六种自回归 LLM 上的实验。
广泛覆盖：实验在 27 个下游 NLP 数据集上进行，涵盖分类、生成和推理任务。
新复合指标 – PEFT Soft Score Penalties (PSCP)：将下游准确率与可训练参数数量、推理延迟和峰值训练内存的惩罚相结合，给出一个单一的“效率感知”得分。
开源发布：代码、配置和 Docker 镜像公开可用，降低了复现和后续扩展的门槛。
实证洞见：系统比较揭示了不同 PEFT 家族（基于适配器、提示微调、LoRA 等）之间的权衡，这些信息此前分散在各篇论文中。

模型与 PEFT 选择 – 作者挑选了六种广泛使用的自回归 LLM（如 GPT‑2‑XL、LLaMA‑7B）和六种 PEFT 策略：
- 适配器模块
- 前缀微调
- 提示微调
- LoRA（低秩适配）
- BitFit（仅偏置微调）
- IA³（注入适配器）
数据集管道 – 统一的数据加载器将 27 个基准数据集（GLUE、SuperGLUE、XSum 等）标准化为通用格式，处理分词、训练/验证划分以及任务特定指标。
训练循环 – PEFT‑Bench 包装了 Hugging Face Trainer，自动冻结基础模型权重，仅暴露 PEFT 参数。超参数（学习率、epoch、批大小）在所有方法中保持一致，以确保公平比较。
评估与 PSCP – 微调完成后，每次运行会测量：
- 任务表现（准确率、F1、ROUGE 等）
- 可训练参数数量
- 推理延迟（单 GPU 上每个 token 的平均时间）
- 峰值训练内存（GPU 内存占用）
PSCP 得分计算公式为：

$$\text{PSCP}= \text{TaskScore} \times \exp\bigl(-\alpha\frac{P}{P_{\max}} - \beta\frac{L}{L_{\max}} - \gamma\frac{M}{M_{\max}}\bigr)$$

其中 (P)、(L) 和 (M) 分别是三项效率因素，(\alpha,\beta,\gamma) 为可调权重（默认 = 1）。
可复现性 – 所有实验均容器化；随机种子、硬件规格和日志会自动记录。

PEFT 方法	平均任务得分 (↑)	可训练参数占比	推理慢速率	峰值内存 (GB)
LoRA	84.2	0.5 %	+3 %	12.1
Adapter	82.7	1.2 %	+5 %	13.5
IA³	81.9	0.8 %	+4 %	12.8
Prefix‑tuning	80.4	1.0 %	+7 %	13.9
Prompt‑tuning	78.6	0.3 %	+2 %	11.9
BitFit	75.3	0.1 %	+1 %	11.5

固定超参数：为保持比较的整洁，作者在所有方法上使用统一的学习率调度；针对特定任务的调优可能会改变排名。
模型多样性：仅考察了自回归 LLM；编码器‑仅或编码器‑解码器架构（如 BERT、T5）可能呈现不同的 PEFT 动态。
PSCP 权重：惩罚权重 ((\alpha,\beta,\gamma)) 目前是经验设定；探索面向特定领域的权重（如对延迟敏感 vs. 对内存敏感的使用场景）仍是开放方向。
长上下文任务：基准未覆盖超长上下文场景（如检索增强生成），某些 PEFT 方法在此类任务中的表现可能不同。

未来工作可以将 PEFT‑Bench 扩展到多模态模型，加入对每种 PEFT 变体的自动超参数搜索，并提供社区提交的排行榜。

如果你想为自己的 LLM 项目尝试低成本却强大的微调，PEFT‑Bench 提供了即用即玩的实验平台。克隆仓库，选择喜欢的 PEFT 方法，让 PSCP 分数指引你找到最适合工作负载的高效方案。