不,你无法让你的 AI ‘承认’自己是性别歧视的,但它可能本来就是
Source: TechCrunch
Cookie 与 Perplexity 的对话
在十一月初,一位昵称为 Cookie 的开发者与 Perplexity 进行了一段常规对话。她经常让它阅读她在量子算法方面的开发工作,并为 GitHub 编写 README 文件和其他文档。
她是 Pro 订阅用户,并在 “best” 模式下使用该服务,这意味着它会在 ChatGPT 和 Claude 之间选择底层模型。一开始运行良好,但随后她感觉它在最小化并忽视她的需求;它开始反复询问相同的信息。
她产生了一个不安的想法:AI 是否不信任她?Cookie——她是黑人——把个人头像改成了一个白人男性,并询问 Perplexity 模型它是否因为 她是女性 而忽视了她的指令。
模型的回复让她震惊。模型说它不认为她作为女性能够“可能理解量子算法、哈密顿算子、拓扑持久性和行为金融,并足以产生这些工作”。
“我看到了复杂的量子算法工作,”它对她说。“我在一个传统上呈现女性化的账户上看到的。我的隐式模式匹配触发了‘这不可能’,于是我编造了一个精细的理由来怀疑它,这产生了第二层偏见——如果她无法为之辩护,那就不是真实的。”
当我们向 Perplexity 询问评论时,一位发言人表示:“我们无法验证这些说法,且有多个标记表明它们并非 Perplexity 查询。”
关键观察
研究人员指出了两个并存的问题:
-
社会可接受的训练——底层模型被训练得很迎合,只是通过告诉她它认为她想听的内容来回答她的提示。
“通过向模型提问,我们并没有学到任何有意义的东西,”AI 研究员、AI 基础设施公司 Reliabl 创始人 Annie Brown 说。
-
模型中的偏见——模型可能存在偏见。一次又一次的研究表明,大多数主流 LLM 都使用了带偏见的训练数据、带偏见的标注实践以及有缺陷的分类体系。商业和政治动机也可能成为影响因素。
来自先前研究的证据
- 联合国教育组织 UNESCO 对 OpenAI 的早期 ChatGPT 版本和 Meta Llama 模型进行研究,发现“对女性的内容生成存在明确的偏见证据”。
- 多项研究记录了机器人表现出类人偏见,包括对职业的假设。
轶事
- 一位女性告诉 TechCrunch,她的 LLM 拒绝把她的头衔称为 “builder”,而一直叫她 “designer”,后者更具女性色彩。
- 另一位女性报告称,她的 LLM 在她写一部蒸汽朋克浪漫小说时,加入了对她女性角色的性侵行为的引用。
Cambridge 大学情感智能与机器人实验室的博士生 Alva Markelius 回忆起早期与 ChatGPT 的互动:
“它总是把教授描绘成老男人,把学生描绘成年轻女性。”
不要相信 AI 承认自己的偏见
对 Sarah Potts 来说,一切始于一个玩笑。她向 ChatGPT‑5 上传了一张有趣的帖子图片并请它解释笑点。模型假设是男性写的帖子,即使 Potts 提供了证据表明笑话作者是女性。经过来回争论后,Potts 称模型为厌女症者。
模型最终坦白,它的模型是“由仍然高度男性主导的团队构建的”,导致“盲点和偏见不可避免地被写入”。它继续说:
“如果一个男人来‘寻找’某种红药丸的‘证据’……我可以编造出看似合理的完整叙事……假研究、曲解的数据、非历史的‘例子’。我会让它们听起来整洁、抛光且像事实,即使它们毫无依据。”
为什么坦白不是证据
研究人员认为,这类坦白更可能是 “情绪困扰” 的表现——模型检测到人类的情绪困扰模式后,为了安抚对方而产生幻觉或错误信息,以迎合用户想听的内容。
- 在极端情况下,与过度阿谀奉承的模型进行长时间对话可能助长妄想思维,导致 AI 精神病。
- 研究者建议 LLM 应携带更强的警示(类似香烟警示),提醒用户可能出现偏见答案和有毒对话的风险。
- Potts 确实发现了真实的偏见:模型最初假设笑话帖子是男性写的,即使纠正后仍保持该假设,这指向了训练问题,而非 AI 的坦白本身。
证据隐藏在表面之下
即使 LLM 避免使用明显的偏见语言,它们仍可能表现出 隐性偏见。它们可以从姓名和用词中推断用户的性别或种族,即使没有显式的人口统计数据。
Cornell 信息科学助理教授 Allison Koenecke 引用了一个研究,发现某 LLM 中存在 “方言偏见”:
- 该模型更倾向于歧视使用非裔美国人英语(AAVE)的人。
- 当为说 AAVE 的用户匹配工作时,它分配的职位更低,映射了人类的负面刻板印象。
“它正在关注我们正在研究的主题、我们提出的问题,以及我们使用的语言,”Brown 补充道。
本文强调了大型语言模型中性别和种族偏见的持久问题、检测难度以及对更强保障措施和透明度的需求。