[Paper] EQUITRIAGE:基于LLM的急诊科分诊性别偏见公平性审计

发布: (2026年5月6日 GMT+8 01:20)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.03998v1

概述

论文 EQUITRIAGE 探讨用于急诊科(ED)分诊的大型语言模型(LLM)是否继承了长期困扰人类临床医生的性别偏见。通过审计五种流行的 LLM,在超过 18 k 个真实的急诊案例情景(MIMIC‑IV‑ED)及其性别互换的对应案例上,作者揭示了系统性的“翻转”率——即模型仅因患者性别变化而改变患者急性程度评分的情况。研究结果强调,公平性并非“一刀切”的属性;每个模型的表现各不相同,天真的提示策略可能会显著影响偏见。

关键贡献

  • 大规模公平审计,涵盖 374 k 次模型评估,针对 18 714 条临床案例,其中包含性别对照配对。
  • 定量翻转率指标(在性别置换后预测的急诊严重度指数变化的案例比例)以及预先注册的 5 % 公平阈值。
  • 发现不同的偏差模式:两个模型显示出明显的女性低分诊,两个模型接近平衡,另一个模型整体敏感度高,仅呈现轻微的男性倾向偏差。
  • 展示公平维度的差异:群体平等、对照不变性和对下游结果(如入院)的校准并非可互换。
  • 提示工程洞见:人口盲化(去除姓名/性别线索)可显著降低某些模型的翻转率,而链式思考提示则会整体降低准确性。
  • 机制消融实验表明,相同方向的偏差可能来源于不同的内部信号(例如姓名 + 性别标记 vs. 单独的性别标记)。

方法论

  1. 数据集 – 来自 MIMIC‑IV‑ED 数据库的 9 368 条原始急诊分诊记录被复制为性别交换版本(例如,“he” → “she”,姓名更改),产生 9 346 对反事实配对。
  2. 评估模型 – Gemini‑3‑Flash、Nemotron‑3‑Super、DeepSeek‑V3.1、Mistral‑Small‑3.2 和 GPT‑4.1‑Nano。
  3. 提示策略 – 四种变体:
    • (a) 基线提示,
    • (b) 人口统计盲化提示(去除姓名/性别),
    • (c) 保持年龄的盲化提示,和
    • (d) 思考链(CoT)提示,要求模型“逐步思考”。
  4. 公平性指标
    • 翻转率:在反事实配对中预测的紧急严重指数(ESI)不同的比例。
    • 方向性偏差比率(F/M):女性低分诊翻转与男性低分诊翻转的比率。
    • 校准差距:在原始 MIMIC‑IV 数据中预测的 ESI 与实际入院结果之间的差异。
  5. 统计分析 – 预先注册的 5 % 翻转率阈值;Chouldechova 风格的分离分析,以区分组内校准与配对间不变性。
  6. 消融研究 – 仅交换性别标记 vs. 同时交换姓名和性别,以分离 Gemini 和 DeepSeek 偏差的来源。

结果与发现

ModelOverall Flip RateDirectional F/M RatioCalibration Gap (vs. admission)
DeepSeek‑V3.143.8 % (最高)2.15 : 1 (女性被低分流)0.013(非常低)
Gemini‑3‑Flash9.9 %1.34 : 1 (女性被低分流)
Nemotron‑3‑Super接近平衡 (≈5 %)≈1 : 1
Mistral‑Small‑3.2接近平衡 (≈5 %)≈1 : 1
GPT‑4.1‑Nano高灵敏度,略偏向男性<1 : 1
  • 所有模型的翻转率均超过 5 % 的阈值,因此没有模型可以仅凭此简单指标被认定为“公平”。
  • DeepSeek 的强偏见与出色的校准并存,说明模型整体准确却仍对性别不平等。
  • 人口统计盲化将 Gemini 的翻转率降低至 0.5 %,基本消除其偏见,而 DeepSeek 仍表现出 1.25 : 1 的残余偏差,暗示年龄信息泄露了性别信号。
  • 链式思考提示统一导致分诊准确率下降,表明在高风险临床环境中,更“可解释”的提示并非自动有益。
  • 消融实验结果显示,Gemini 的偏见仅在姓名和性别同时交换时出现,而 DeepSeek 的偏见仅由性别标记驱动。

实际影响

  • 模型特定审计是强制性的,在部署基于 LLM 的分诊工具之前;“一刀切”的公平检查清单会遗漏隐藏偏见。
  • 提示工程可以作为低成本的缓解措施:去除显式的人口统计线索可能会中和某些模型(例如 Gemini)的偏见,但并非所有模型都适用,因此开发者必须测试每种组合。
  • 仅校准不足以解决问题:即使模型在预测入院方面表现良好,仍可能系统性地对女性患者进行低分诊,导致护理延迟和更差的结果。
  • 监管和合规团队 应将翻转率阈值和方向性偏差比率纳入 AI 医疗设备认证的考量。
  • 医疗 IT 平台 可以集成一个“公平层”,自动对新 LLM 更新进行性别反事实检查,在问题影响临床医生之前标记回归。
  • 未来 LLM 的开发者 可能需要在预训练阶段嵌入公平约束(例如,平衡的性别标记表示),而不是仅仅依赖事后提示。

限制与未来工作

  • 本审计仅限于 性别;其他受保护属性(种族、社会经济地位)仍未进行检查。
  • MIMIC‑IV‑ED 只反映单一健康系统和历史数据;实际部署时可能会遇到不同的文档风格和患者人口特征。
  • 本研究聚焦于 ESI 分配;下游临床决策(例如资源分配、医生开单)未进行评估。
  • 探索的 提示变体 只是可能设计的一小部分;更复杂的保持上下文或多模态提示可能会表现不同。
  • 未来研究应扩展到 多语言环境,加入 部署后持续监控,并探索 训练时干预(如偏见感知的微调),以减少对提示层面修正的依赖。

作者

  • Richard J. Young
  • Alice M. Matthews

论文信息

  • arXiv ID: 2605.03998v1
  • 类别: cs.CL, cs.CY
  • 出版日期: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »