[Paper] EQUITRIAGE：基于LLM的急诊科分诊性别偏见公平性审计

发布: 5天前 (2026年5月6日 GMT+8 01:20)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.03998v1

概述

论文 EQUITRIAGE 探讨用于急诊科（ED）分诊的大型语言模型（LLM）是否继承了长期困扰人类临床医生的性别偏见。通过审计五种流行的 LLM，在超过 18 k 个真实的急诊案例情景（MIMIC‑IV‑ED）及其性别互换的对应案例上，作者揭示了系统性的“翻转”率——即模型仅因患者性别变化而改变患者急性程度评分的情况。研究结果强调，公平性并非“一刀切”的属性；每个模型的表现各不相同，天真的提示策略可能会显著影响偏见。

关键贡献

大规模公平审计，涵盖 374 k 次模型评估，针对 18 714 条临床案例，其中包含性别对照配对。
定量翻转率指标（在性别置换后预测的急诊严重度指数变化的案例比例）以及预先注册的 5 % 公平阈值。
发现不同的偏差模式：两个模型显示出明显的女性低分诊，两个模型接近平衡，另一个模型整体敏感度高，仅呈现轻微的男性倾向偏差。
展示公平维度的差异：群体平等、对照不变性和对下游结果（如入院）的校准并非可互换。
提示工程洞见：人口盲化（去除姓名/性别线索）可显著降低某些模型的翻转率，而链式思考提示则会整体降低准确性。
机制消融实验表明，相同方向的偏差可能来源于不同的内部信号（例如姓名 + 性别标记 vs. 单独的性别标记）。

方法论

数据集 – 来自 MIMIC‑IV‑ED 数据库的 9 368 条原始急诊分诊记录被复制为性别交换版本（例如，“he” → “she”，姓名更改），产生 9 346 对反事实配对。
评估模型 – Gemini‑3‑Flash、Nemotron‑3‑Super、DeepSeek‑V3.1、Mistral‑Small‑3.2 和 GPT‑4.1‑Nano。
提示策略 – 四种变体：
- (a) 基线提示，
- (b) 人口统计盲化提示（去除姓名/性别），
- (c) 保持年龄的盲化提示，和
- (d) 思考链（CoT）提示，要求模型“逐步思考”。
公平性指标 –
- 翻转率：在反事实配对中预测的紧急严重指数（ESI）不同的比例。
- 方向性偏差比率（F/M）：女性低分诊翻转与男性低分诊翻转的比率。
- 校准差距：在原始 MIMIC‑IV 数据中预测的 ESI 与实际入院结果之间的差异。
统计分析 – 预先注册的 5 % 翻转率阈值；Chouldechova 风格的分离分析，以区分组内校准与配对间不变性。
消融研究 – 仅交换性别标记 vs. 同时交换姓名和性别，以分离 Gemini 和 DeepSeek 偏差的来源。

结果与发现

Model	Overall Flip Rate	Directional F/M Ratio	Calibration Gap (vs. admission)
DeepSeek‑V3.1	43.8 % (最高)	2.15 : 1 (女性被低分流)	0.013（非常低）
Gemini‑3‑Flash	9.9 %	1.34 : 1 (女性被低分流)	–
Nemotron‑3‑Super	接近平衡 (≈5 %)	≈1 : 1	–
Mistral‑Small‑3.2	接近平衡 (≈5 %)	≈1 : 1	–
GPT‑4.1‑Nano	高灵敏度，略偏向男性	<1 : 1	–

所有模型的翻转率均超过 5 % 的阈值，因此没有模型可以仅凭此简单指标被认定为“公平”。
DeepSeek 的强偏见与出色的校准并存，说明模型整体准确却仍对性别不平等。
人口统计盲化将 Gemini 的翻转率降低至 0.5 %，基本消除其偏见，而 DeepSeek 仍表现出 1.25 : 1 的残余偏差，暗示年龄信息泄露了性别信号。
链式思考提示统一导致分诊准确率下降，表明在高风险临床环境中，更“可解释”的提示并非自动有益。
消融实验结果显示，Gemini 的偏见仅在姓名和性别同时交换时出现，而 DeepSeek 的偏见仅由性别标记驱动。

实际影响

模型特定审计是强制性的，在部署基于 LLM 的分诊工具之前；“一刀切”的公平检查清单会遗漏隐藏偏见。
提示工程可以作为低成本的缓解措施：去除显式的人口统计线索可能会中和某些模型（例如 Gemini）的偏见，但并非所有模型都适用，因此开发者必须测试每种组合。
仅校准不足以解决问题：即使模型在预测入院方面表现良好，仍可能系统性地对女性患者进行低分诊，导致护理延迟和更差的结果。
监管和合规团队 应将翻转率阈值和方向性偏差比率纳入 AI 医疗设备认证的考量。
医疗 IT 平台 可以集成一个“公平层”，自动对新 LLM 更新进行性别反事实检查，在问题影响临床医生之前标记回归。
未来 LLM 的开发者 可能需要在预训练阶段嵌入公平约束（例如，平衡的性别标记表示），而不是仅仅依赖事后提示。

限制与未来工作

本审计仅限于性别；其他受保护属性（种族、社会经济地位）仍未进行检查。
MIMIC‑IV‑ED 只反映单一健康系统和历史数据；实际部署时可能会遇到不同的文档风格和患者人口特征。
本研究聚焦于 ESI 分配；下游临床决策（例如资源分配、医生开单）未进行评估。
探索的 提示变体 只是可能设计的一小部分；更复杂的保持上下文或多模态提示可能会表现不同。
未来研究应扩展到 多语言环境，加入 部署后持续监控，并探索 训练时干预（如偏见感知的微调），以减少对提示层面修正的依赖。

作者

Richard J. Young
Alice M. Matthews

论文信息

arXiv ID: 2605.03998v1
类别: cs.CL, cs.CY
出版日期: 2026年5月5日
PDF: 下载 PDF

[Paper] EQUITRIAGE：基于LLM的急诊科分诊性别偏见公平性审计

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] LLMs 改进 LLMs：Agentic Discovery 用于 Test-Time Scaling

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

[Paper] 不确定性感知的结构化数据提取：通过 Distilled LLMs 从完整 CMR 报告