[论文] G-Loss:图引导的语言模型微调

发布: (2026年4月29日 GMT+8 00:55)
6 分钟阅读
原文: arXiv

Source: arXiv - 2604.25853v1

概览

本文介绍了 G‑Loss,一种用于微调大型语言模型(LLM),如 BERT 的新损失函数。通过在训练目标中织入反映全局文档级相似性的图结构,G‑Loss 帮助模型学习能够尊重更广阔语义空间的嵌入——这是传统损失(交叉熵、对比损失等)所忽视的。

关键贡献

  • 图引导的损失公式,将半监督标签传播直接整合到微调目标中。
  • 基于嵌入空间的文档相似度图构建,捕获整个训练语料库的全局语义关系。
  • 实证验证,在五个多样化的文本分类基准(MR、R8、R52、Ohsumed、20NG)上进行,显示出相较于标准损失函数更快的收敛速度和更高的准确率。
  • 可视化与分析学习到的嵌入空间,展示出改进的语义一致性和类别可分离性。

方法论

  1. Base Model – 使用预训练的 transformer(例如 BERT),为微调集合中的每篇文档获取初始的 token/CLS 嵌入。
  2. Graph Construction – 计算文档嵌入之间的成对余弦相似度,并为每个节点保留前 k 个最近邻,构建无向相似度图 (G = (V, E))。
  3. Label Propagation – 将已有的类别标签视为种子,在 (G) 上运行半监督传播算法(例如 personalized PageRank),为未标记的边生成软伪标签。
  4. G‑Loss Definition – 将标准监督损失(交叉熵)与图正则化项相结合,后者惩罚节点嵌入与其邻居传播标签分布之间的不一致。形式上:

[ \mathcal{L}{\text{G‑Loss}} = \mathcal{L}{\text{sup}} + \lambda \sum_{(i,j)\in E} w_{ij}, \text{KL}\big(p_i ,|, p_j\big) ]

其中 (w_{ij}) 为边权重,(p_i) 为模型预测的类别分布,(\lambda) 用于平衡两项。

  1. Fine‑tuning Loop – 端到端优化组合损失;图会定期重新计算(例如每个 epoch),以反映不断演化的嵌入空间。

结果与发现

数据集基线(交叉熵)G‑LossΔ 准确率收敛(epochs)
MR (sentiment)88.2 %90.5 %+2.3 %3 → 2
R8 (topic)94.1 %95.6 %+1.5 %4 → 2
R52 (topic)92.8 %94.3 %+1.5 %5 → 3
Ohsumed (medical)78.4 %81.0 %+2.6 %6 → 4
20NG (news)84.7 %86.9 %+2.2 %5 → 3
  • 更快的收敛:G‑Loss 通常比基线提前 30–50 % 达到峰值性能。
  • 更丰富的嵌入:t‑SNE 可视化显示类内聚类更紧密,类间边界更清晰。
  • 对标签稀缺的鲁棒性:当仅保留 20 % 的训练标签时,G‑Loss 的性能下降约 1 %,而基线约下降 3 %,凸显图结构半监督信号的优势。

实际意义

  • 改进下游分类器:开发者可以将 G‑Loss 插入现有的微调流水线(PyTorch、Hugging Face Transformers),在不更改模型结构的情况下提升任何文本分类任务的准确率。
  • 缩短训练时间:更快的收敛意味着更少的 GPU 使用时长,这对模型更新频繁的生产环境非常有吸引力。
  • 更好地处理噪声或稀疏标签:基于图的正则化充当“语义平滑”层,使模型对标注错误的数据更具容忍度——这是实际语料库中常见的痛点。
  • 检索与聚类的潜力:由于 G‑Loss 生成的嵌入遵循全局相似性,同一微调模型可几乎无需额外工作即可用于语义搜索、重复检测或主题聚类。

Source:

限制与未来工作

  • 图构建开销:构建和更新相似度图在超大数据集上可能代价高昂;作者建议使用近似最近邻方法来缓解此问题。
  • 超参数敏感性:平衡因子 (\lambda) 和邻居数量 (k) 需要仔细调优;默认值在基准测试上表现良好,但在特定领域数据上可能需要调整。
  • 仅限于分类任务:实验聚焦于监督分类;将 G‑Loss 扩展到生成类任务(如问答、摘要)仍是一个未解之题。

总体而言,G‑Loss 为在语言模型微调中注入全局语义感知提供了一种务实的方式,为构建稳健 NLP 服务的开发者带来了可观的收益。

作者

  • Sharma Aditya
  • Agarwal Vinti
  • Kumar Rajesh

论文信息

  • arXiv ID: 2604.25853v1
  • 类别: cs.CL, cs.AI, cs.LG
  • 发布日期: 2026年4月28日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 递归多智能体系统

递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …