[Paper] 同理心适用性建模用于一般健康查询

发布: (2026年1月15日 GMT+8 02:47)
8 min read
原文: arXiv

Source: arXiv - 2601.09696v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。

概述

大型语言模型(LLMs)正被部署为临床环境中的虚拟助理,但它们仍难以传达患者对人类医生所期望的那种同理心。本文提出了 Empathy Applicability Framework (EAF),一个基于理论的系统,能够预测患者的健康查询何时需要情感回应,从而让下游模型提前生成更具关怀的回复。

关键贡献

  • EAF taxonomy: 一个结构化分类,将患者查询映射到“适用共情”或“非适用共情”,基于临床严重程度、上下文线索和语言信号。
  • Benchmark dataset: 2,500 条真实世界健康问题,由领域专家和 GPT‑4o 注释,并包含高一致性的人类子集用于可靠评估。
  • Empathy‑applicability classifiers: 在仅有人类标签和仅有 GPT 标签上训练的监督模型,优于启发式规则和零样本 LLM 基线。
  • Error analysis & insights: 识别出三种持续的失败模式——隐式痛苦、模糊的临床严重程度以及文化特定的困境——为未来的标注和模型设计提供指导。
  • Open‑source release: 代码、数据和评估脚本已公开发布,以推动医疗 AI 中前瞻性共情的研究。

方法论

  1. 框架设计 – 作者将临床沟通理论提炼为三层标签集合:

    • 情感‑反应适用 – 该查询需要共情反应。
    • 解释适用 – 该查询需要共情性表述或澄清。
    • 不适用 – 纯信息性,无需共情。
  2. 数据收集 – 从公共健康论坛抓取了超过 2,500 条去标识化的患者提问。每条查询由以下方式独立标注:

    • 人工临床医生(每项 n=3)
    • GPT‑4o(使用相同的评分标准提示)。
  3. 标签整合 – 对于“人工共识”子集(≈ 70 % 的数据),至少有两位临床医生对标签达成一致。GPT‑4o 的预测也与该金标准比较,以衡量对齐程度。

  4. 模型训练 – 构建了两类分类器:

    • 传统机器学习(Logistic Regression、SVM),使用手工构造的语言特征(例如情感得分、医学实体密度)。
    • 微调的大语言模型(DistilBERT、LLaMA‑7B),直接输入原始查询文本。
  5. 基线 – 使用简单的基于规则的启发式方法(例如出现 “I feel” → 共情)以及 GPT‑4o 的零样本提示进行比较。

  6. 评估 – 在保留的测试集上报告准确率、F1 和 Cohen’s κ,并分别对人工共识集和完整双标注集进行报告。

结果与发现

模型准确率(人工共识)F1(宏观)备注
Rule‑based heuristic62 %0.58漏掉细微的痛苦表现
Zero‑shot GPT‑4o71 %0.66表现更好,但在模糊案例上不稳定
Logistic Regression (hand‑crafted)78 %0.74受益于医学实体特征
Fine‑tuned DistilBERT84 %0.81整体表现最强
Fine‑tuned LLaMA‑7B86 %0.84超越所有基线模型
  • Human‑GPT 对齐:在共识子集上,GPT‑4o 与临床医生的意见一致率为 78 %,表明在明确的评估标准指导下,大语言模型能够接近专家判断。
  • 错误热点:模型最常在以下情形出错:暗示痛苦但未使用明确情感词的查询(例如 “我的血压在升高”),临床严重程度不明确的问题,以及具有文化特定性的困境表达。

实际意义

  • 同理心预筛选:将情感需求分类器(EAF)集成到健康聊天机器人的工作流中,使系统能够在生成回复之前标记需要同理心语调的查询,确保下游语言模型选择合适的风格模板。
  • 异步护理平台:远程分诊服务和患者门户可以将需要同理心的消息路由给人工临床医生或更高保真度的语言模型,从而在不牺牲可扩展性的前提下提升患者满意度。
  • 开发者工具:发布的基准可用于微调自定义模型或评估现有聊天大型语言模型的同理心感知能力,为产品团队提供超越通用准确率的具体度量指标。
  • 监管合规:展示 AI 系统主动评估同理心需求的能力,有助于满足医疗领域日益增长的“以人为本” AI 指南要求。

限制与未来工作

  • 注释多样性:人工注释者主要是来自单一地区的说英语的临床医生,限制了文化的普适性。
  • 查询范围:数据集侧重于一般健康问题;专业特定或紧急级别的查询可能需要不同的共情分类法。
  • 模型可解释性:虽然微调后的大语言模型表现最佳,但其决策逻辑仍然不透明,这可能会阻碍在高风险场景中的信任。
  • 下一步:作者提出多注释者流水线,纳入患者、跨文化临床医生以及持续的临床专家在环校准,以完善框架并扩大其适用性。

底线:通过将共情检测从事后标签转变为主动分类步骤,共情适用性框架为开发者提供了一个实用的杠杆,使 AI 驱动的健康助理更具人性化——同时不牺牲使大语言模型具有吸引力的速度和规模。

作者

  • Shan Randhawa
  • Agha Ali Raza
  • Kentaro Toyama
  • Julie Hui
  • Mustafa Naseem

论文信息

  • arXiv ID: 2601.09696v1
  • 分类: cs.CL
  • 出版时间: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »