[Paper] 语音、偏见与共指:语音翻译中性别的可解释性研究

发布: (2025年11月26日 GMT+8 23:48)
7 min read
原文: arXiv

Source: arXiv - 2511.21517v1

Overview

论文 Voice, Bias, and Coreference: An Interpretability Study of Gender in Speech Translation 探讨了语音翻译(ST)系统在将英语(许多词没有语法性别)翻译成西班牙语、法语或意大利语等具有性别的语言时,为什么有时会错误地为说话者分配性别。通过对三个 ST 模型的分析,作者揭示了训练数据、内部语言模型偏差以及声学线索如何相互作用决定性别选择——提供了首次对该现象的模型层面详细解释。

Key Contributions

  • 对三种语言对(en‑es、en‑fr、en‑it)中性别分配的实证分析,针对最先进的 ST 系统。
  • 区分偏差来源:展示模型从数据中继承了男性占优势的倾向,但也会依赖声学信号来覆盖内部语言模型(ILM)的偏好。
  • 在频谱图上的对比特征归因,定位模型用于推断说话者性别的频段。
  • 发现一种新机制:模型将第一人称代词(“I”“me”)与性别化名词关联,利用分布式的频谱信息,而不仅仅是音高。
  • 开源工具,用于复现分析(数据集、归因脚本和可视化)。

Methodology

  1. 数据与模型 – 作者在公开可用的语料库上训练端到端 ST 模型,分别用于 English→Spanish、English→French、English→Italian。每个模型由声学编码器、解码器以及一个内部语言模型(ILM)组成,后者在没有音频的情况下预测目标文本。
  2. 偏差探测 – 创建受控测试集,源句包含第一人称指代和性别模糊的名词(如 “I am a doctor”)。通过在音频中切换说话者性别(男性 vs. 女性声音)观察翻译的变化。
  3. ILM 消融 – 单独运行 ILM(无音频)以测量其原始性别偏差,然后与声学编码器结合,观察音频能够抵消多少偏差。
  4. 对比特征归因 – 使用基于梯度的归因方法在频谱图上生成热图,突出对性别决策影响最大的时频区域。
  5. 统计分析 – 计算每个语言对的性别准确率,并进行相关性分析,将归因模式与性能关联。

Results & Findings

AspectWhat the authors found
Training data bias模型学习到一种全局男性占优势(≈ 60‑70 % 的男性性别分配),而不是记忆每个名词的性别频率。
ILM bias在没有音频的情况下运行时,ILM 对 > 80 % 的性别模糊名词默认使用男性形式。
Acoustic override提供女性声音可在 45‑55 % 的案例中翻转性别,表明声学编码器能够抵消 ILM 偏差,但并非总能完全覆盖。
Feature attribution高准确率模型关注宽频段(≈ 300‑800 Hz)以及第一人称代词的时序,说明它们利用与说话者身份相关的韵律模式,而不仅仅是音高。
Cross‑language consistency同样的机制在西班牙语、法语和意大利语中均出现,暗示当前 ST 架构存在语言无关的偏差模式。

Practical Implications

  • 更公平的用户体验 – 了解性别推断方式可帮助产品团队审计并减轻语音助手、实时字幕和多语言会议转录服务中的误性别问题。
  • 模型设计 – 开发者可以考虑解耦 ILM 与声学编码器(例如通过偏差正则化或性别平衡微调)以降低默认的男性偏差。
  • 数据收集 – 研究强调了性别平衡语音语料库的必要性;仅仅增加更多女性说话者即可帮助声学编码器学习更强的性别线索。
  • 可解释性工具 – 对比频谱图归因技术可集成到调试流水线中,用于可视化为何特定翻译选择了某种性别形式。
  • 合规监管 – 随着隐私和反偏见法规日趋严格,拥有清晰、可复现的性别决策分析有助于 AI 翻译服务的合规审计。

Limitations & Future Work

  • 语言范围 – 分析仅限于三种罗曼语系语言;性别系统更丰富的语言(如斯拉夫语系)可能表现出不同的动态。
  • 二元性别聚焦 – 研究仅区分男性与女性声音,未考虑非二元或性别非顺从的说话者。
  • 模型族 – 实验使用单一端到端 Transformer 架构;其他 ST 方案(如级联流水线)可能行为不同。
  • 真实噪声 – 测试句子为干净录音;背景噪声或重叠语音可能影响模型依赖的声学线索。

未来的研究方向包括将归因框架扩展到多语言、多对多 ST 模型,探索偏差缓解策略(如对抗训练),以及在评估中扩大性别光谱的覆盖范围。

Authors

  • Lina Conti
  • Dennis Fucci
  • Marco Gaido
  • Matteo Negri
  • Guillaume Wisniewski
  • Luisa Bentivogli

Paper Information

  • arXiv ID: 2511.21517v1
  • Categories: cs.CL, cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »