[Paper] EQUITRIAGE:基于LLM的急诊科分诊性别偏见公平性审计
发布: (2026年5月6日 GMT+8 01:20)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.03998v1
概述
论文 EQUITRIAGE 探讨用于急诊科(ED)分诊的大型语言模型(LLM)是否继承了长期困扰人类临床医生的性别偏见。通过审计五种流行的 LLM,在超过 18 k 个真实的急诊案例情景(MIMIC‑IV‑ED)及其性别互换的对应案例上,作者揭示了系统性的“翻转”率——即模型仅因患者性别变化而改变患者急性程度评分的情况。研究结果强调,公平性并非“一刀切”的属性;每个模型的表现各不相同,天真的提示策略可能会显著影响偏见。
关键贡献
- 大规模公平审计,涵盖 374 k 次模型评估,针对 18 714 条临床案例,其中包含性别对照配对。
- 定量翻转率指标(在性别置换后预测的急诊严重度指数变化的案例比例)以及预先注册的 5 % 公平阈值。
- 发现不同的偏差模式:两个模型显示出明显的女性低分诊,两个模型接近平衡,另一个模型整体敏感度高,仅呈现轻微的男性倾向偏差。
- 展示公平维度的差异:群体平等、对照不变性和对下游结果(如入院)的校准并非可互换。
- 提示工程洞见:人口盲化(去除姓名/性别线索)可显著降低某些模型的翻转率,而链式思考提示则会整体降低准确性。
- 机制消融实验表明,相同方向的偏差可能来源于不同的内部信号(例如姓名 + 性别标记 vs. 单独的性别标记)。
方法论
- 数据集 – 来自 MIMIC‑IV‑ED 数据库的 9 368 条原始急诊分诊记录被复制为性别交换版本(例如,“he” → “she”,姓名更改),产生 9 346 对反事实配对。
- 评估模型 – Gemini‑3‑Flash、Nemotron‑3‑Super、DeepSeek‑V3.1、Mistral‑Small‑3.2 和 GPT‑4.1‑Nano。
- 提示策略 – 四种变体:
- (a) 基线提示,
- (b) 人口统计盲化提示(去除姓名/性别),
- (c) 保持年龄的盲化提示,和
- (d) 思考链(CoT)提示,要求模型“逐步思考”。
- 公平性指标 –
- 翻转率:在反事实配对中预测的紧急严重指数(ESI)不同的比例。
- 方向性偏差比率(F/M):女性低分诊翻转与男性低分诊翻转的比率。
- 校准差距:在原始 MIMIC‑IV 数据中预测的 ESI 与实际入院结果之间的差异。
- 统计分析 – 预先注册的 5 % 翻转率阈值;Chouldechova 风格的分离分析,以区分组内校准与配对间不变性。
- 消融研究 – 仅交换性别标记 vs. 同时交换姓名和性别,以分离 Gemini 和 DeepSeek 偏差的来源。
结果与发现
| Model | Overall Flip Rate | Directional F/M Ratio | Calibration Gap (vs. admission) |
|---|---|---|---|
| DeepSeek‑V3.1 | 43.8 % (最高) | 2.15 : 1 (女性被低分流) | 0.013(非常低) |
| Gemini‑3‑Flash | 9.9 % | 1.34 : 1 (女性被低分流) | – |
| Nemotron‑3‑Super | 接近平衡 (≈5 %) | ≈1 : 1 | – |
| Mistral‑Small‑3.2 | 接近平衡 (≈5 %) | ≈1 : 1 | – |
| GPT‑4.1‑Nano | 高灵敏度,略偏向男性 | <1 : 1 | – |
- 所有模型的翻转率均超过 5 % 的阈值,因此没有模型可以仅凭此简单指标被认定为“公平”。
- DeepSeek 的强偏见与出色的校准并存,说明模型整体准确却仍对性别不平等。
- 人口统计盲化将 Gemini 的翻转率降低至 0.5 %,基本消除其偏见,而 DeepSeek 仍表现出 1.25 : 1 的残余偏差,暗示年龄信息泄露了性别信号。
- 链式思考提示统一导致分诊准确率下降,表明在高风险临床环境中,更“可解释”的提示并非自动有益。
- 消融实验结果显示,Gemini 的偏见仅在姓名和性别同时交换时出现,而 DeepSeek 的偏见仅由性别标记驱动。
实际影响
- 模型特定审计是强制性的,在部署基于 LLM 的分诊工具之前;“一刀切”的公平检查清单会遗漏隐藏偏见。
- 提示工程可以作为低成本的缓解措施:去除显式的人口统计线索可能会中和某些模型(例如 Gemini)的偏见,但并非所有模型都适用,因此开发者必须测试每种组合。
- 仅校准不足以解决问题:即使模型在预测入院方面表现良好,仍可能系统性地对女性患者进行低分诊,导致护理延迟和更差的结果。
- 监管和合规团队 应将翻转率阈值和方向性偏差比率纳入 AI 医疗设备认证的考量。
- 医疗 IT 平台 可以集成一个“公平层”,自动对新 LLM 更新进行性别反事实检查,在问题影响临床医生之前标记回归。
- 未来 LLM 的开发者 可能需要在预训练阶段嵌入公平约束(例如,平衡的性别标记表示),而不是仅仅依赖事后提示。
限制与未来工作
- 本审计仅限于 性别;其他受保护属性(种族、社会经济地位)仍未进行检查。
- MIMIC‑IV‑ED 只反映单一健康系统和历史数据;实际部署时可能会遇到不同的文档风格和患者人口特征。
- 本研究聚焦于 ESI 分配;下游临床决策(例如资源分配、医生开单)未进行评估。
- 探索的 提示变体 只是可能设计的一小部分;更复杂的保持上下文或多模态提示可能会表现不同。
- 未来研究应扩展到 多语言环境,加入 部署后持续监控,并探索 训练时干预(如偏见感知的微调),以减少对提示层面修正的依赖。
作者
- Richard J. Young
- Alice M. Matthews
论文信息
- arXiv ID: 2605.03998v1
- 类别: cs.CL, cs.CY
- 出版日期: 2026年5月5日
- PDF: 下载 PDF