[论文] G-Loss:图引导的语言模型微调
发布: (2026年4月29日 GMT+8 00:55)
6 分钟阅读
原文: arXiv
Source: arXiv - 2604.25853v1
概览
本文介绍了 G‑Loss,一种用于微调大型语言模型(LLM),如 BERT 的新损失函数。通过在训练目标中织入反映全局文档级相似性的图结构,G‑Loss 帮助模型学习能够尊重更广阔语义空间的嵌入——这是传统损失(交叉熵、对比损失等)所忽视的。
关键贡献
- 图引导的损失公式,将半监督标签传播直接整合到微调目标中。
- 基于嵌入空间的文档相似度图构建,捕获整个训练语料库的全局语义关系。
- 实证验证,在五个多样化的文本分类基准(MR、R8、R52、Ohsumed、20NG)上进行,显示出相较于标准损失函数更快的收敛速度和更高的准确率。
- 可视化与分析学习到的嵌入空间,展示出改进的语义一致性和类别可分离性。
方法论
- Base Model – 使用预训练的 transformer(例如 BERT),为微调集合中的每篇文档获取初始的 token/CLS 嵌入。
- Graph Construction – 计算文档嵌入之间的成对余弦相似度,并为每个节点保留前 k 个最近邻,构建无向相似度图 (G = (V, E))。
- Label Propagation – 将已有的类别标签视为种子,在 (G) 上运行半监督传播算法(例如 personalized PageRank),为未标记的边生成软伪标签。
- G‑Loss Definition – 将标准监督损失(交叉熵)与图正则化项相结合,后者惩罚节点嵌入与其邻居传播标签分布之间的不一致。形式上:
[ \mathcal{L}{\text{G‑Loss}} = \mathcal{L}{\text{sup}} + \lambda \sum_{(i,j)\in E} w_{ij}, \text{KL}\big(p_i ,|, p_j\big) ]
其中 (w_{ij}) 为边权重,(p_i) 为模型预测的类别分布,(\lambda) 用于平衡两项。
- Fine‑tuning Loop – 端到端优化组合损失;图会定期重新计算(例如每个 epoch),以反映不断演化的嵌入空间。
结果与发现
| 数据集 | 基线(交叉熵) | G‑Loss | Δ 准确率 | 收敛(epochs) |
|---|---|---|---|---|
| MR (sentiment) | 88.2 % | 90.5 % | +2.3 % | 3 → 2 |
| R8 (topic) | 94.1 % | 95.6 % | +1.5 % | 4 → 2 |
| R52 (topic) | 92.8 % | 94.3 % | +1.5 % | 5 → 3 |
| Ohsumed (medical) | 78.4 % | 81.0 % | +2.6 % | 6 → 4 |
| 20NG (news) | 84.7 % | 86.9 % | +2.2 % | 5 → 3 |
- 更快的收敛:G‑Loss 通常比基线提前 30–50 % 达到峰值性能。
- 更丰富的嵌入:t‑SNE 可视化显示类内聚类更紧密,类间边界更清晰。
- 对标签稀缺的鲁棒性:当仅保留 20 % 的训练标签时,G‑Loss 的性能下降约 1 %,而基线约下降 3 %,凸显图结构半监督信号的优势。
实际意义
- 改进下游分类器:开发者可以将 G‑Loss 插入现有的微调流水线(PyTorch、Hugging Face Transformers),在不更改模型结构的情况下提升任何文本分类任务的准确率。
- 缩短训练时间:更快的收敛意味着更少的 GPU 使用时长,这对模型更新频繁的生产环境非常有吸引力。
- 更好地处理噪声或稀疏标签:基于图的正则化充当“语义平滑”层,使模型对标注错误的数据更具容忍度——这是实际语料库中常见的痛点。
- 检索与聚类的潜力:由于 G‑Loss 生成的嵌入遵循全局相似性,同一微调模型可几乎无需额外工作即可用于语义搜索、重复检测或主题聚类。
Source: …
限制与未来工作
- 图构建开销:构建和更新相似度图在超大数据集上可能代价高昂;作者建议使用近似最近邻方法来缓解此问题。
- 超参数敏感性:平衡因子 (\lambda) 和邻居数量 (k) 需要仔细调优;默认值在基准测试上表现良好,但在特定领域数据上可能需要调整。
- 仅限于分类任务:实验聚焦于监督分类;将 G‑Loss 扩展到生成类任务(如问答、摘要)仍是一个未解之题。
总体而言,G‑Loss 为在语言模型微调中注入全局语义感知提供了一种务实的方式,为构建稳健 NLP 服务的开发者带来了可观的收益。
作者
- Sharma Aditya
- Agarwal Vinti
- Kumar Rajesh
论文信息
- arXiv ID: 2604.25853v1
- 类别: cs.CL, cs.AI, cs.LG
- 发布日期: 2026年4月28日
- PDF: 下载 PDF