[Paper] PVminer：一种领域特定工具，用于检测患者生成数据中的患者声音

发布: 3天前 (2026年2月25日 GMT+8 02:10)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.21165v1

概述

本文介绍了 PVminer，一个面向特定领域的自然语言处理（NLP）工具包，能够自动从大量患者生成的文本（如安全消息、调查问卷和访谈记录）中提取“患者声音”（PV）。通过将非结构化的患者交流转化为结构化、机器可读的标签，PVminer 使得医疗系统能够规模化以往只能通过劳动密集型手工编码获取的定性洞察。

关键贡献

Domain‑adapted BERT models (PV‑BERT‑base & PV‑BERT‑large) 在患者撰写的语言上微调，优于通用生物医学和临床 BERT 变体。
Multi‑label, hierarchical classification 在单一流水线中预测三个标签层级（Code、Subcode、Combo）。
Topic‑augmented representation (PV‑Topic‑BERT) 将无监督主题向量注入编码器，丰富语义上下文。
Comprehensive benchmark 显示相对于强基线的 F1 分数分别为 82.25 %（Code）、80.14 %（Subcode）和 77.87 %（Combo）。
Open‑source release 包括模型、训练脚本和文档，以及可按需请求的标注数据集供研究复用。

方法论

数据策划 – 对安全的患者‑提供者消息进行手动标注，使用层次化编码方案，捕捉患者中心沟通（PCC）类别和健康社会决定因素（SDoH）。
领域适配 – 在患者生成的语料库上进一步预训练两个 BERT 模型，分别生成 PV‑BERT‑base（12 层）和 PV‑BERT‑large（24 层）。此步骤让模型学习患者语言的特有表达（例如口语化、拼写错误、速记）。
主题建模 – 使用无监督的 LDA‑style 模型从同一语料库中提取潜在主题。将得到的主题分布向量与 BERT 词元嵌入拼接，形成 PV‑Topic‑BERT 输入。
多任务微调 – 共享编码器向三个分类头（Code、Subcode、Combo）输出。三个分类头使用每个标签的二元交叉熵损失共同训练，使模型能够学习标签间的依赖关系。
推理增强 – 在预测时，模型还将作者身份（患者 vs. 提供者）作为二元特征加入，作者发现这可以提升对患者表达的关注点与提供者生成内容的区分能力。

结果与发现

任务	F1 分数	基准 (BioBERT)
Code (top‑level)	82.25 %	74.3 %
Subcode (mid‑level)	80.14 %	71.9 %
Combo (fine‑grained)	77.87 %	68.5 %

消融研究：移除作者身份导致 Code F1 下降约 2 pp；移除主题增强导致 Subcode F1 下降约 3 pp，证实两者均带来可衡量的价值。
可扩展性：端到端流水线在单个 GPU 上每小时处理数千条消息，使其在整个健康系统部署中具备实用性。

实际意义

自动化社会决定因素提取 – 临床医生和护理经理可以直接从患者信息中实时收到关于住房不安全、交通障碍或药物负担能力的警报，从而实现主动联系。
质量改进仪表盘 – 结构化的患者生成内容（PV）数据可以在群体健康仪表盘中可视化，帮助卫生系统在各诊所跟踪以患者为中心的沟通指标。
临床决策支持 – 与电子健康记录（EHR）的集成可以在临床笔记旁显示患者声音标签，为提供者在共享决策中提供更丰富的背景信息。
研究加速 – 研究人员可以在大型语料库中查询特定的患者生成内容主题，无需手动审查病历，从而加快健康差异和沟通有效性研究的进程。
合规与文档 – 对患者生成内容的自动编码支持基于价值的护理模型的文档要求，该模型奖励以患者为中心的结果。

限制与未来工作

领域泛化 – 这些模型是在单一健康系统的安全消息平台上训练的；在其他机构、语言或通信渠道（例如 SMS、患者门户）上的表现尚未测试。
标注粒度 – 分层代码集反映了作者的专家分类法；将其扩展或适配到其他临床情境可能需要额外的标注工作。
可解释性 – 虽然模型会输出标签概率，但更深入的可解释性（例如突出显示导致特定 SDoH 标记的文本片段）尚未集成到流水线中。
未来方向 – 作者计划 (1) 评估跨机构迁移学习，(2) 融入多模态数据（例如音频访谈），以及 (3) 开发面向用户的工具，向临床医生展示高亮摘录以供审阅。

作者

Samah Fodeh
Linhai Ma
Yan Wang
Srivani Talakokkul
Ganesh Puthiaraju
Afshan Khan
Ashley Hagaman
Sarah Lowe
Aimee Roundtree

论文信息

arXiv ID: 2602.21165v1
分类: cs.CL, cs.AI
出版日期: 2026年2月24日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

大型语言模型（LLMs）在生物学基准测试中表现日益出色，但仍不清楚它们是否能提升新手用户——即使人类能够……

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

现实世界的表格-文本问答（QA）任务需要模型能够在长文本和源表格之间进行推理，跨越多跳并执行 co...

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

扩散语言模型（DLM）常被宣传能够实现并行 token 生成，但实际的快速 DLM 往往会收敛为左到右的自回归模型……

【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型

在解码过程中降低大型语言模型（LLMs）的硬件占用对于高效的长序列生成至关重要。一个关键瓶颈是 key-...