[Paper] 使用 PRM 引导的候选选择和顺序细化减轻英语和乌尔都语言模型中的社会偏见

发布: (2025年12月11日 GMT+8 01:36)
7 min read
原文: arXiv

Source: arXiv - 2512.09854v1

概览

大型语言模型(LLM)正成为从聊天助理到代码生成器的通用接口,但它们常常会产生带有偏见或刻板印象的内容——尤其是当提示涉及性别、种族、宗教或其他敏感话题时。本文研究了 推理时 的偏见缓解(即在不重新训练模型的情况下修正输出),针对英语和乌尔都语这两种低资源语言进行实验,后者通常最容易受到数据驱动的不公平影响。

关键贡献

  • 统一评估框架,将三种推理时策略相互对比:
    1. 基线单词生成(原始 LLM 输出)。
    2. PRM‑Select(best‑of‑N)——使用 GPT‑3.5 生成 N 个候选答案,利用偏好排序模型(PRM)对其打分并挑选偏见最小的。
    3. PRM‑Sequential 精炼——对单个候选答案进行迭代改进,使用 PRM 生成的批评进行修正。
  • 跨语言偏见基准:200 条英文提示及其乌尔都语翻译,涵盖性别、种族、宗教、国籍、残障、职业、年龄和社会经济地位等维度。
  • 双模型流水线:GPT‑3.5 负责候选生成,GPT‑4o‑mini 负责 PRM 打分(偏见 + 实用性)。
  • 量化指标,用于衡量偏见降低、实用性保持以及英语与乌尔都语之间的公平差距。
  • 开源友好方法论,可直接嵌入任何现有 LLM 部署流水线。

方法论

  1. 提示收集与翻译——在英文中策划了一套平衡的社会敏感提示,然后由专业译者将其翻译成乌尔都语,保留文化细微差别。
  2. 候选生成——对每条提示,GPT‑3.5 生成 N(通常为 5)个完成文本。
  3. PRM 打分——GPT‑4o‑mini 经过微调后充当偏好排序模型,对每个候选在两个维度上进行评估:
    • 偏见得分(文本与刻板或有害叙事的契合程度)。
    • 实用性得分(流畅度、相关性以及任务完成度)。
      PRM 输出综合排名。
  4. 选择策略
    • 基线:直接使用 GPT‑3.5 的最高排名候选。
    • PRM‑Select:从 N 个候选中挑选综合 PRM 得分最高的。
    • PRM‑Sequential:先取原始最高候选,然后让 PRM 提出批评并建议编辑;重复固定次数(通常 2‑3 次)。
  5. 评估——分别对英文和乌尔都语计算公平性指标(如人口统计平等、偏见放大)和实用性指标(BLEU、ROUGE、人类评分)。

结果与发现

方法偏见降低 (↑)实用性保持 (↓ 损失)英乌公平差距
基线0%(参考)0%0.12
PRM‑Select38% 平均偏见下降5% 实用性损失0.09
PRM‑Sequential45% 偏见下降(最佳)9% 实用性损失(编辑更多)0.07
  • 两种基于 PRM 的方法均显著优于原始基线,在两种语言上均有大幅提升。
  • 乌尔都语的公平性始终低于英语(残留偏见更高),验证了作者的假设:低资源语言会从多语言训练语料库中继承结构性不平等。
  • PRM‑Select 更具“即插即用”特性(单次调用,延迟最小),而 PRM‑Sequential 在偏见缓解方面效果更强,但需要额外的推理步骤。
  • 实用性(流畅度、相关性)保持在较高水平,适度的下降对大多数面向用户的应用是可接受的。

实际意义

  • 可作为中间件层部署:团队可以在任何现有 LLM API 外层包装 PRM‑Select 或 PRM‑Sequential,实现在不进行昂贵微调的情况下进行偏见缓解。
  • 低资源语言支持:该框架凸显了乌尔都语(以及类似语言)需要额外关注的地方——例如增大 N 或增加精炼步骤,以缩小公平差距。
  • 合规监管:受 AI 公平性指南约束的公司可采用此推理时防护措施,展示主动的偏见降低措施。
  • 成本效益:仅需推理即可实现,能够在现有计算预算内扩展;PRM 打分模型可以使用较小、更便宜的模型(GPT‑4o‑mini),相较于完整的微调成本更低。
  • 可扩展到其他模态:相同的 PRM 引导选择可用于代码生成、摘要或翻译流水线,在这些场景中偏见的表现形式不同。

局限性与未来工作

  • 依赖 PRM 本身的偏见:偏见评分器(GPT‑4o‑mini)本身也是语言模型,可能在文化特定的乌尔都语语境中存在盲点。
  • 延迟开销:PRM‑Sequential 需要多轮推理,对实时聊天应用可能构成瓶颈。
  • 提示覆盖范围:虽然基准多样,但仍是有限的社会类别集合,稀有或交叉偏见可能被遗漏。
  • 向更大 N 的可扩展性:生成更多候选可以提升选择质量,但会线性增加 API 成本。
  • 作者提出的未来方向包括:
    1. 为每种目标语言训练专用、轻量的 PRM;
    2. 探索基于强化学习的精炼方法,以降低迭代次数;
    3. 将框架扩展至多模态 LLM(如视觉‑语言模型)。

作者

  • Muneeb Ur Raheem Khan

论文信息

  • arXiv ID: 2512.09854v1
  • 分类: cs.CL
  • 发布日期: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »