[Paper] 追踪预训练 Transformer 中的刻板印象：从有偏神经元到更公平的模型

发布: 1个月前 (2026年1月9日 GMT+8 17:33)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.05663v1

概述

本文研究了为何大型预训练 Transformer（如 BERT）有时会复制有害的刻板印象，并展示了可以识别并抑制这些“罪魁祸首”神经元的方法。通过构建一套精心挑选的刻板关系集合并应用神经元归因技术，作者演示了一种实用且细粒度的方式，使语言模型在软件工程（SE）任务中更加公平——且几乎不牺牲准确性。

偏置神经元假设： 将“knowledge neuron”概念扩展，提出 biased neurons，用于编码刻板关联。
偏置三元组数据集： 将 9 类偏置（性别、种族、年龄等）整理为用于探测模型的关系三元组集合。
神经元归因流水线： 采用现有归因方法（如 Integrated Gradients、Gradient × Activation），定位 BERT 中的偏置神经元。
有针对性的神经元抑制： 引入轻量级掩码技术，在推理期间将识别出的偏置神经元激活置零。
在软件工程任务上的实证验证： 表明偏置降低（刻板预测下降约 70 %）的同时，下游软件工程基准（代码搜索、缺陷报告分类）的性能下降低于 2 %。

数据集构建 – 收集刻板印象陈述（例如，“女性是护士”），并将其转化为 三元组 ⟨主体, 关系, 客体⟩，覆盖九个偏见维度。
神经元归因 – 对每个三元组，将句子输入 BERT，并使用基于梯度的方法计算每个隐藏神经元的归因分数。得分高的神经元被标记为偏见。
神经元掩码 – 推理时，二进制掩码将标记的神经元激活置零。掩码可以是静态的（对所有输入使用相同神经元）或动态的（对每个输入重新计算）。
评估
- 偏见指标: 使用 StereoSet 和 CrowS‑Pairs 量化掩码前后的刻板预测。
- SE 基准: 运行代码搜索（CodeSearchNet）、缺陷预测和 API 推荐等任务，以衡量性能影响。

该流水线刻意保持模型无关性；可插入任何 Transformer，代码改动极少。

要点： 仅有极小的子集（≈ 0.5 % 的全部神经元）承载了大部分刻板印象知识。将其沉默可显著降低偏差，同时几乎不影响下游软件工程性能。

通过揭示并中和偏见神经元，本文提供了一条具体且对开发者友好的路径，推动软件工程及其他领域的基于 Transformer 的工具更加公平。