[Paper] 消费者健康护理问题摘要的数据集与基准

发布: 1周前 (2025年12月30日 GMT+8 01:49)

6 min read

原文: arXiv

Source: arXiv - 2512.23637v1

概览

本文介绍了 CHQ‑Sum，这是一个新整理的数据集，包含 1,507 条消费者健康问题及其由专家撰写的简明摘要。通过提供高质量、领域专家标注的基准，作者旨在加速对噪声较大、用户生成的健康查询自动摘要的研究——这对于构建更智能的健康助理、搜索引擎和分诊机器人至关重要。

关键贡献

CHQ‑Sum 数据集：来自社区问答论坛的 1,507 条真实世界消费者健康问题，每条均由领域专家标注了简洁、医学准确的摘要。
全面基准：在新数据集上评估多种最先进的抽象式摘要模型（如 BART、T5、PEGASUS），建立基线性能指标。
领域挑战分析：详细的错误分析，阐明消费者健康问题相较于通用文本更难摘要的原因（如行业术语、无关细节、歧义表述）。
开源发布：数据集、预处理脚本和评估代码均公开发布，鼓励可重复性研究和进一步探索。

方法论

数据收集 – 作者从一个流行的社区问答平台抓取消费者健康问题，筛选出具有明确医学意图的帖子。
专家标注 – 受过训练的医学专业人员将每个问题改写为简短、信息密集的摘要（≈30‑40 词），捕捉核心健康关注点，同时去除冗余叙事。
预处理 – 文本进行标准化（分词、去标识化），并划分为训练/验证/测试集（80/10/10）。
模型基准测试 – 四种基于 Transformer 的抽象式摘要模型（BART‑large、T5‑base、PEGASUS‑large，以及微调的 Longformer‑Encoder‑Decoder）在训练集上进行训练。使用标准指标（ROUGE‑1/2/L、BERTScore）进行评估，并辅以人工对医学正确性的评估。

该流水线刻意保持简洁，以便开发者能够使用单个 GPU 重现结果，并将代码适配到其他健康相关的摘要任务。

结果与发现

模型	ROUGE‑1	ROUGE‑2	ROUGE‑L	BERTScore
BART‑large	38.2	15.7	35.9	0.84
T5‑base	36.5	14.9	34.1	0.82
PEGASUS‑large	40.1	16.4	37.2	0.86
Longformer‑LED	37.8	15.2	35.5	0.83

PEGASUS‑large 获得了最佳的 ROUGE 分数，证实了在大规模摘要语料上预训练的模型能够很好地迁移到健康领域。
人工评估显示，虽然模型通常能够生成流畅的摘要，但 医学准确性 仍是瓶颈：约 30 % 的生成摘要遗漏或错误表述了关键症状或病情。
错误分析表明，模型在处理 过于冗长的问题 和 隐含的医学术语（例如 “feeling off” → “dysphoria”）时表现最差。

Practical Implications

改进健康聊天机器人：集成微调的摘要模型可以将用户提供的症状叙述压缩为简洁、结构化的输入，供下游诊断或分诊模块使用。
搜索与检索：摘要后的查询能够在消费健康搜索引擎中实现更精确的索引和排序，减少叙事带来的噪声。
临床决策支持：摘要可以自动附加到患者生成的健康数据（例如门户消息），帮助临床医生快速把握核心问题。
合规监管：通过去除个人可识别信息而保留医学意图，摘要有助于对数据进行匿名化，以用于研究或 AI 模型训练。

开发者可以先在 CHQ‑Sum 上微调 PEGASUS 或 BART，然后将模型接入现有流水线（例如使用 Hugging Face Transformers），几乎无需额外的工程工作。

限制与未来工作

数据集规模：虽然质量很高，但 1.5 k 条示例相较于通用摘要语料库仍显不足，限制了从头训练超大模型的能力。
领域范围：问题来源于单一社区论坛，可能无法覆盖全球消费者健康查询的全部语言多样性（例如非英语、低识字率用户）。
医学准确性：当前模型仍会出现事实错误；未来工作应探索使用医学本体（如 UMLS）的 事实核查 或 基于知识的生成。
多轮上下文：许多健康询问涉及后续问题；将基准扩展到多轮对话是一个有前景的方向。

通过弥补这些不足，社区可以朝着构建稳健、可信的摘要工具迈进，从而真正赋能消费者健康领域的开发者和终端用户。

作者

Abhishek Basu
Deepak Gupta
Dina Demner‑Fushman
Shweta Yadav

论文信息

arXiv ID: 2512.23637v1
分类: cs.CL
出版时间: 2025年12月29日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 光鲜不一定是金子：Reference-Free Counterfactual Financial Misinformation Detection 基准

我们介绍了 RFC Bench，这是一项用于在真实新闻环境下评估大型语言模型在金融误信息方面表现的基准。RFC Bench 在段落层面运行。

[Paper] FLEx：语言建模与少样本语言解释

语言模型在广泛的任务上已经变得非常有效，从数学问题求解到开放域问答。然而，它们仍然会犯错误，...

[Paper] LLMberjack：用于多方对话创建的辩论树引导裁剪

我们提出了 LLMberjack，一个基于现有辩论（最初以 reply trees 结构）创建多方对话的平台。该系统提供……

[Paper] ContextFocus：激活引导实现大语言模型的上下文忠实性

大型语言模型（LLMs）在预训练期间编码了大量的参数化知识。随着世界知识的演变，有效的部署越来越依赖……