[论文] G-Loss：图引导的语言模型微调

发布: 20小时前 (2026年4月29日 GMT+8 00:55)

6 分钟阅读

原文: arXiv

Source: arXiv - 2604.25853v1

概览

本文介绍了 G‑Loss，一种用于微调大型语言模型（LLM），如 BERT 的新损失函数。通过在训练目标中织入反映全局文档级相似性的图结构，G‑Loss 帮助模型学习能够尊重更广阔语义空间的嵌入——这是传统损失（交叉熵、对比损失等）所忽视的。

Base Model – 使用预训练的 transformer（例如 BERT），为微调集合中的每篇文档获取初始的 token/CLS 嵌入。
Graph Construction – 计算文档嵌入之间的成对余弦相似度，并为每个节点保留前 k 个最近邻，构建无向相似度图 (G = (V, E))。
Label Propagation – 将已有的类别标签视为种子，在 (G) 上运行半监督传播算法（例如 personalized PageRank），为未标记的边生成软伪标签。
G‑Loss Definition – 将标准监督损失（交叉熵）与图正则化项相结合，后者惩罚节点嵌入与其邻居传播标签分布之间的不一致。形式上：

[ \mathcal{L}{\text{G‑Loss}} = \mathcal{L}{\text{sup}} + \lambda \sum_{(i,j)\in E} w_{ij}, \text{KL}\big(p_i ,|, p_j\big) ]

其中 (w_{ij}) 为边权重，(p_i) 为模型预测的类别分布，(\lambda) 用于平衡两项。

数据集	基线（交叉熵）	G‑Loss	Δ 准确率	收敛（epochs）
MR (sentiment)	88.2 %	90.5 %	+2.3 %	3 → 2
R8 (topic)	94.1 %	95.6 %	+1.5 %	4 → 2
R52 (topic)	92.8 %	94.3 %	+1.5 %	5 → 3
Ohsumed (medical)	78.4 %	81.0 %	+2.6 %	6 → 4
20NG (news)	84.7 %	86.9 %	+2.2 %	5 → 3

改进下游分类器：开发者可以将 G‑Loss 插入现有的微调流水线（PyTorch、Hugging Face Transformers），在不更改模型结构的情况下提升任何文本分类任务的准确率。
缩短训练时间：更快的收敛意味着更少的 GPU 使用时长，这对模型更新频繁的生产环境非常有吸引力。
更好地处理噪声或稀疏标签：基于图的正则化充当“语义平滑”层，使模型对标注错误的数据更具容忍度——这是实际语料库中常见的痛点。
检索与聚类的潜力：由于 G‑Loss 生成的嵌入遵循全局相似性，同一微调模型可几乎无需额外工作即可用于语义搜索、重复检测或主题聚类。

Source: …

总体而言，G‑Loss 为在语言模型微调中注入全局语义感知提供了一种务实的方式，为构建稳健 NLP 服务的开发者带来了可观的收益。