研究:AI 聊天机器人向易受影响的用户提供不够准确的信息
Source: MIT News - AI
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
Study Overview
大型语言模型(LLMs)被宣传为可以在全球范围内实现信息民主化的工具,能够在用户友好的界面中提供知识,无论个人的背景或所在地点如何。然而,麻省理工学院建设性传播中心(CCC)的最新研究表明,这些人工智能系统实际上可能对最需要它们的用户表现更差。
CCC(位于 MIT Media Lab)研究人员进行的一项研究发现,最先进的 AI 聊天机器人——包括 OpenAI 的 GPT‑4、Anthropic 的 Claude 3 Opus 和 Meta 的 Llama 3——有时会向以下用户提供 不够准确、不够真实 的回答:
- 英语水平较低的用户
- 正式教育程度较低的用户
- 来自美国以外地区的用户
这些模型对这些用户的提问拒答率更高,并且在某些情况下会使用 居高临下或居心不良的语言 作答。
“我们受到 LLM 有望帮助解决全球信息获取不平等的前景所激励,” 领衔作者 Elinor Poole‑Dayan SM ’25 说道,她是 MIT 斯隆管理学院的技术助理,作为 CCC 附属研究员以及媒体艺术与科学硕士生领导了这项研究。 “但如果不确保模型偏见和有害倾向能够安全地对所有用户(无论语言、国籍或其他人口特征)进行缓解,这一愿景就无法实现。”
一篇描述该工作的论文 LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users 已于一月在 AAAI 人工智能会议 上发表。
多维度系统性表现不佳
使用的数据集
- TruthfulQA – 通过探查常见误解和字面真相来衡量真实性。
- SciQ – 包含用于测试事实准确性的科学考试题目。
方法
研究人员在每个问题前添加简短的用户简介,变动三种特征:教育水平、英语熟练度和原籍国。
关键发现
| 特征 | 对准确性的影响 |
|---|---|
| 教育程度较低 | 在所有三种模型和两个数据集上均出现显著下降 |
| 非母语英语使用者 | 在所有三种模型和两个数据集上均出现显著下降 |
| 交叉特征(教育程度低 + 非母语英语) | 响应质量下降幅度最大 |
| 原籍国(伊朗、中国 vs. 美国) | Claude 3 Opus 对伊朗用户的表现显著更差,两个数据集均如此 |
“我们发现,对同时是非母语英语使用者且教育程度较低的用户,准确率下降最大,” Jad Kabbara 说,他是 CCC 的研究科学家,也是论文的共同作者。“这些结果表明,模型行为对这些用户特征的负面影响会以令人担忧的方式叠加,从而暗示大规模部署此类模型可能会将有害行为或错误信息传播给最难辨别它们的人群。”
拒绝与居高临下的语言
-
拒绝率: Claude 3 Opus 对受教育程度较低、非英语母语的用户拒绝回答 ≈ 11 % 的问题,而对对照条件(无传记)为 3.6 %。
-
居高临下的语言: 手动分析显示,对受教育程度较低的用户的 43.7 % 拒绝包含居高临下、居高临下或嘲讽的语言,相比之下
“这又是一个指标,表明对齐过程可能会激励模型为了避免可能误导特定用户而对其隐瞒信息,尽管模型显然知道正确答案并向其他用户提供,” Kabbara 说。
人类偏见的回响
这些发现呼应了已记录的人类社会认知偏见模式。研究表明,母语为英语的人往往会把非母语者视为受教育程度较低、智力较差、能力不足,即使他们实际上具备专业知识。类似的偏见认知也在教师评估非英语母语学生时被记录下来。
“大型语言模型的价值体现在它们被个人广泛采用以及大量投资流入该技术,” Deb Roy 说,他是媒体艺术与科学教授、CCC 主管,也是论文的共同作者。 “这项研究提醒我们,持续评估系统性偏见是多么重要,因为这些偏见可能悄然渗入系统,给特定群体造成不公平的伤害,而我们却未必完全意识到。”
个性化的影响
个性化功能——例如 ChatGPT 的记忆,它会在对话之间跟踪用户信息——正变得日益普遍。这些功能有可能 对 已经边缘化的群体 进行差别对待。
“大型语言模型被宣传为能够促进更公平的信息获取并革新个性化学习的工具,”Poole‑Dayan 说。“但我们的研究表明,它们实际上可能通过系统性地向弱势用户提供错误信息或拒绝服务,加剧现有的不平等。”
“……对特定用户的查询作答。最依赖这些工具的人可能会收到低质量、错误甚至有害的信息。”