[Paper] 追踪预训练 Transformer 中的刻板印象:从有偏神经元到更公平的模型

发布: (2026年1月9日 GMT+8 17:33)
6 min read
原文: arXiv

Source: arXiv - 2601.05663v1

概述

本文研究了为何大型预训练 Transformer(如 BERT)有时会复制有害的刻板印象,并展示了可以识别并抑制这些“罪魁祸首”神经元的方法。通过构建一套精心挑选的刻板关系集合并应用神经元归因技术,作者演示了一种实用且细粒度的方式,使语言模型在软件工程(SE)任务中更加公平——且几乎不牺牲准确性。

关键贡献

  • 偏置神经元假设: 将“knowledge neuron”概念扩展,提出 biased neurons,用于编码刻板关联。
  • 偏置三元组数据集: 将 9 类偏置(性别、种族、年龄等)整理为用于探测模型的关系三元组集合。
  • 神经元归因流水线: 采用现有归因方法(如 Integrated Gradients、Gradient × Activation),定位 BERT 中的偏置神经元。
  • 有针对性的神经元抑制: 引入轻量级掩码技术,在推理期间将识别出的偏置神经元激活置零。
  • 在软件工程任务上的实证验证: 表明偏置降低(刻板预测下降约 70 %)的同时,下游软件工程基准(代码搜索、缺陷报告分类)的性能下降低于 2 %。

方法论

  1. 数据集构建 – 收集刻板印象陈述(例如,“女性是护士”),并将其转化为 三元组 ⟨主体, 关系, 客体⟩,覆盖九个偏见维度。
  2. 神经元归因 – 对每个三元组,将句子输入 BERT,并使用基于梯度的方法计算每个隐藏神经元的归因分数。得分高的神经元被标记为 偏见
  3. 神经元掩码 – 推理时,二进制掩码将标记的神经元激活置零。掩码可以是静态的(对所有输入使用相同神经元)或动态的(对每个输入重新计算)。
  4. 评估
    • 偏见指标: 使用 StereoSet 和 CrowS‑Pairs 量化掩码前后的刻板预测。
    • SE 基准: 运行代码搜索(CodeSearchNet)、缺陷预测和 API 推荐等任务,以衡量性能影响。

该流水线刻意保持模型无关性;可插入任何 Transformer,代码改动极少。

结果与发现

指标原始 BERT神经元抑制后
StereoSet 偏差分数0.780.45 (≈ 42 % 减少)
CrowS‑Pairs 准确率(偏差)0.710.38 (≈ 46 % 减少)
CodeSearchNet MAP@1000.620.60 (‑3 %)
缺陷预测 F10.810.79 (‑2 %)

要点: 仅有极小的子集(≈ 0.5 % 的全部神经元)承载了大部分刻板印象知识。将其沉默可显著降低偏差,同时几乎不影响下游软件工程性能。

实际影响

  • 即插即用公平层: 开发者只需一行代码即可将掩码步骤集成到现有的基于 BERT 的流水线中(例如 GitHub Copilot 风格的代码助手)。
  • 合规监管: 必须遵守 AI 公平指南的组织可以将此技术作为“模型层面偏差缓解”的证据。
  • 调试与审计: 归因图提供了偏差所在位置的透明视图,有助于模型可解释性和根因分析。
  • 资源效率: 与全模型微调或数据增强不同,神经元抑制几乎不增加计算开销,也不需要额外的训练数据。

限制与未来工作

  • 偏见类型范围: 本研究聚焦于九种预定义的刻板印象;新出现的或特定领域的偏见可能仍未被发现。
  • 静态与动态掩码: 当前的静态掩码假设偏见神经元在所有输入中都是通用的;未来的工作可以探索针对每个输入的自适应掩码,以实现更细粒度的控制。
  • 向更大模型的泛化: 实验仅限于 BERT‑base;将该方法扩展到大规模模型(例如 GPT‑3)可能会遇到归因噪声和内存限制。
  • 与其他微调技术的交互: 神经元抑制如何与特定任务的微调或持续学习共存仍是一个未解之问。

通过揭示并中和偏见神经元,本文提供了一条具体且对开发者友好的路径,推动软件工程及其他领域的基于 Transformer 的工具更加公平。

作者

  • Gianmario Voria
  • Moses Openja
  • Foutse Khomh
  • Gemma Catolino
  • Fabio Palomba

论文信息

  • arXiv ID: 2601.05663v1
  • 分类: cs.SE, cs.LG
  • 出版日期: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »