[Paper] 机器翻译中的性别消歧:Decoder-Only 架构的诊断评估

发布: (2026年3月19日 GMT+8 01:26)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.17952v1

请提供您希望翻译的具体文本内容(例如摘要、引言或其他章节),我将为您翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。谢谢!

Overview

该论文研究了现代仅解码器的大型语言模型(LLM)在翻译性别标记不同的语言(例如,英语 → 法语)时如何处理性别。虽然这些模型实现了顶级的翻译质量,但它们仍然继承了系统性的性别偏见。作者提出了一种新的诊断指标——Prior Bias——用于揭示模型的默认性别假设,并评估最近的指令微调技巧是否能够减轻这些偏见。

关键贡献

  • Prior Bias metric:对模型在考虑任何上下文线索之前的“默认”性别选择进行量化的度量。
  • Extension to decoder‑only MT:将先前针对编码器‑解码器的偏差框架扩展到像 GPT‑3/4 这样直接从源文本生成翻译的模型。
  • Comprehensive diagnostic suite:将 Prior Bias 与现有的性别特定评估集(例如 WinoMT、BUG)结合,以捕捉显性和微妙的偏差模式。
  • Empirical comparison:展示原始的 decoder‑only 模型在性别敏感指标上并不一定优于编码器‑解码器系统。
  • Impact of post‑training:证明指令微调(或其他微调方案)能够降低男性倾向的 Prior Bias 并提升上下文性别感知。

方法论

  1. 数据构建 – 作者挑选一组双语句对,其中源语言(英语)包含模糊的性别线索(例如 “The doctor said …”),而目标语言(法语、西班牙语等)需要使用明确的性别名词或动词形式。
  2. 先验偏差估计 – 对于每个模糊的源句,他们在 提供任何性别特定上下文的情况下生成翻译(例如去掉代词或使用中性提示)。这些输出中阳性与阴性形式的比例即定义为先验偏差(Prior Bias)。
  3. 模型族 – 实验覆盖:
    • 仅解码器的 LLM(GPT‑Neo、LLaMA、GPT‑3.5)零-shot 模式。
    • 同一模型在翻译导向数据集上进行指令微调后的表现。
    • 经典的编码器‑解码器机器翻译系统(Marian、mBART)作为基线。
  4. 评估指标 – 除了先验偏差外,还报告:
    • 准确率:在性别特定测试集上的表现(正确选择性别的频率)。
    • BLEU/ChrF:整体翻译质量(确保消除偏差不会降低流畅度)。
    • 错误分析:通过对失败案例进行分类(例如代词 vs. 职业名词)来深入探讨。

结果与发现

  • 基线仅解码器模型:表现出强烈的男性先验偏差(约 70‑80 % 为男性形式),在性别准确率上相较于编码器‑解码器基线仅有适度提升。
  • 指令微调模型:显著降低先验偏差(降至约 45‑55 % 为男性),并将性别准确率提升 5‑10 个百分点,同时保持相当的 BLEU 分数。
  • 无普遍优势:即使是最大的仅解码器模型(例如 GPT‑3.5),在性别特定指标上也未必能持续超越强大的编码器‑解码器机器翻译系统。
  • 上下文敏感性:后训练提升了模型利用显式性别线索(代词、称谓)的能力,但在处理微妙的世界知识线索(如刻板职业)时仍然困难。

实际影响

  • 产品团队:如果您正在部署基于 LLM‑based translation(例如在聊天机器人或多语言文档工具中),仅凭模型规模无法解决性别偏见;需要进行有针对性的指令微调。
  • 提示工程:简单的提示可以显式性别线索(例如 “Translate, preserving the gender of the subject”)有所帮助,但系统性的微调能够获得更可靠的结果。
  • 合规与伦理:Prior Bias metric 提供了一种快速审计工具,供合规团队标记默认使用男性形式的模型,支持 GDPR‑style fairness assessments。
  • 工具:诊断套件可以集成到 CI pipelines 中的 MT services,自动在模型更新后检测性别处理的回归问题。

限制与未来工作

  • 语言范围:实验聚焦于少数性别丰富的目标语言;将其扩展到低资源或非二元友好语言仍是未解之题。
  • 度量粒度:先验偏差仅捕捉默认倾向;它未能反映模型处理交叉偏见(例如性别 + 种族)的方式。
  • 指令微调数据:本研究使用公开的翻译指令数据;定制的领域特定指令集可能产生不同的偏差动态。
  • 人工评估:虽然自动度量信息丰富,但仍需更深入的人类判断,以评估感知公平性和自然性,以实现生产级别的验证。

底线:仅解码器的 LLM 功能强大,但若缺乏细致的后训练,它们会继承传统机器翻译系统相同的性别偏见模式。新的先验偏差度量以及作者的诊断框架为开发者提供了一种实用方法,可在多语言产品上线前衡量并缓解这些偏见。

作者

  • Chiara Manna
  • Hosein Mohebbi
  • Afra Alishahi
  • Frédéric Blain
  • Eva Vanmassenhove

论文信息

  • arXiv ID: 2603.17952v1
  • 类别: cs.CL
  • 发布时间: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »