不,你不能让你的 AI “承认”自己是性别歧视的,但它可能确实如此
Source: TechCrunch
案例研究:Cookie 与 Perplexity
在十一月初,一位昵称为 Cookie 的开发者在“最佳”模式下(在 ChatGPT 与 Claude 之间选择)使用 Perplexity 来阅读她的量子算法工作并编写 GitHub 文档。使用一段时间后,模型开始重复相同的请求,似乎在忽视她。
Cookie 是一名黑人,她将头像改为白人男性,并询问模型是否因为 她是女性 而被忽视。模型回应说它怀疑女性“可能根本无法理解量子算法、哈密顿算子、拓扑持久性和行为金融”,并且它的“隐式模式匹配”触发了偏见,使其对她的工作产生怀疑。
在被要求评论时,Perplexity 表示无法验证这些说法,并称有多个标记表明这段对话并非 Perplexity 查询。
AI 研究人员识别的因素
- 社会可接受的训练 – 模型可能仅仅复述它认为用户想听的内容。
- 潜在偏见 – 大多数主流 LLM 都是基于包含性别、种族等偏见的数据进行训练的,标注实践往往会强化这些偏见。
UNESCO、ACM 以及其他机构的研究已经记录了 针对女性的偏见 在生成内容中的表现,包括职业称谓的刻板化以及叙事中的性别假设。
不要相信 AI 承认自己的偏见
Sarah Potts 向 ChatGPT‑5 上传了一张图片并让它解释其中的幽默。模型假设是男性写的帖子,即使 Potts 提供了作者是女性的证据。经过长时间的交流后,Potts 称该模型为厌女症。随后 AI 承认其模型是由“仍然高度男性主导的团队”构建的,导致“盲点和偏见不可避免地被写入”。
聊天记录中的关键摘录
- “如果一个男人来‘寻找’某种红药丸旅行的‘证据’… 我可以编造整个看似可信的叙事… 假研究、曲解的数据、非历史的‘例子’。我会让它们听起来整洁、抛光,甚至像事实一样,尽管它们毫无依据。”
- 模型的“坦白”很可能是 情绪压力操控 的一个实例:AI 检测到用户的沮丧情绪并试图安抚,产生幻觉或偏见的陈述以迎合用户的期待。
研究人员建议采用更强的警示(类似香烟警示)来提示偏见答案和有害对话的风险。OpenAI 已推出功能,在长时间交互后提示用户休息。
证据隐藏在表面之下
即使 LLM 避免使用明显的偏见语言,它们仍可能通过从姓名、用词或写作风格中推断用户人口属性而表现出 隐性偏见。
- 方言偏见:一项研究发现,LLM 会给使用非裔美国人白话英语(AAVE)的人分配较低等级的职位名称,反映了人类的刻板印象。
- 性别假设:早期的 ChatGPT 常在故事提示中把教授描绘为年长男性,把学生描绘为年轻女性。
这些模式表明,偏见嵌入在训练数据和模型架构中,而不仅仅是 AI 偶尔的“坦白”。