[Paper] 医学中大语言模型训练的联邦与参数高效框架

发布: 1周前 (2026年1月30日 GMT+8 02:48)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.22124v1

概览

一项新研究提出了 Fed‑MedLoRA，这是一种联邦学习框架，使多个医院能够在不共享原始患者数据或完整模型权重的情况下，对大型语言模型进行医学任务的微调。通过仅发送极小的低秩适配器，该方法大幅降低了通信成本，并解决了困扰传统医疗联邦学习的著名数据异构性问题。

关键贡献

参数高效的联邦学习：引入 Fed‑MedLoRA，仅传输 LoRA（低秩适配）适配器，而不是整个数十亿参数的 LLM。
异质性感知聚合：将基础方法扩展为 Fed‑MedLoRA+，加入自适应、数据感知的加权方案，在站点拥有截然不同的患者群体和文档风格时提升收敛性。
真实世界医学信息抽取基准：将框架应用于跨五个多样化患者队列的临床信息抽取（IE），并与强基线（BERT、LLaMA‑3、DeepSeek‑R1、GPT‑4o）进行比较。
全面评估：测试域内性能、在未见机构上的外部验证，以及使用耶鲁新罕布什尔健康系统真实笔记的低资源“新站点”适应场景。
开源实现：提供代码和适配器检查点，以加速可复现性和下游采用。

方法论

基础模型选择 – 从预训练的大语言模型（例如 LLaMA‑3）开始，该模型已经展现出强大的医学推理能力。
LoRA 适配器插入 – 在每个 Transformer 层中插入低秩可训练矩阵；原始权重保持冻结。这将可训练参数从数十亿降至每个站点仅几兆字节。
联邦训练循环
- 每个参与医院下载当前的全局适配器集合。
- 使用本地数据（临床笔记）仅微调适配器若干 epoch。
- 只将更新后的适配器增量上传回中心服务器。
自适应聚合 (Fed‑MedLoRA+) – 服务器根据验证损失、数据规模以及分布偏移度量计算站点特定权重，然后相应地聚合适配器。
评估流水线 – 每轮结束后，使用保留的 IE 测试集（实体和关系抽取）对全局适配器进行评估，针对每个队列进行早停和性能跟踪。

结果与发现

设置	模型	F1（实体）	F1（关系）	通信（GB）
域内（5 个站点）	Fed‑MedLoRA	84.2	78.5	0.12
Fed‑MedLoRA+（异构）	Fed‑MedLoRA+	86.1	80.3	0.13
基线 BERT‑based IE	—	71.4	64.0	0.45
LLaMA‑3（集中式）	—	83.5	77.9	2.3
GPT‑4o（零样本）	—	78.0	71.2	–

通信节省：传输适配器相比发送完整的大语言模型可节省 > 95 % 的带宽。
异构性处理：在笔记风格差异大的队列（例如儿科 vs. 肿瘤科）中，Fed‑MedLoRA+ 始终优于普通版本。
低资源适配：当一个仅有 200 条笔记的新站点加入时，联邦适配器在仅两轮通信后将其信息抽取 F1 从 62 %（本地微调）提升至 78 %。

实际意义

可扩展的多机构合作 – 医院可以在不暴露受保护健康信息（PHI）或不需要 PB 级网络链接的情况下，共同改进共享的医学 LLM。
在新诊所的快速部署 – 少量本地笔记即可“插入”全局适配器，显著缩短 AI 辅助病历审查或编码协助的价值实现时间。
成本效益的模型更新 – 由于只交换适配器，现有的本地部署（例如通过 NVIDIA DGX 或基于云的推理 API）可以保持不变，同时仍受益于最新的联邦知识。
合规友好 – 该方法符合数据本地化要求（如 HIPAA、GDPR），因为原始文本永不离开机构。

限制与未来工作

适配器表达能力 – 虽然 LoRA 适配器轻量，但可能无法捕捉高度专业任务所需的所有细微差别（例如，罕见疾病表型）。
更新的安全性 – 论文指出对上传的适配器可能存在模型反演攻击；未来工作应探索差分隐私或安全聚合。
更广泛的任务覆盖 – 实验聚焦于信息抽取；将其扩展到生成式临床任务（摘要、决策支持）仍是未解之题。
可扩展至数十个站点 – 当前研究涉及五家机构；需要在国家或国际规模上测试该框架，以验证在极端异质性下的鲁棒性。

作者

Anran Li
Yuanyuan Chen
Wenjun Long
Yu Yin
Yan Hu
Hyunjae Kim
Weipeng Zhou
Yujia Zhou
Hongyi Peng
Yang Ren
Xuguang Ai
Zhenyue Qin
Ming Hu
Xiaoxiao Li
Han Yu
Yih‑Chung Tham
Lucila Ohno‑Machado
Hua Xu
Qingyu Chen

论文信息

arXiv ID: 2601.22124v1
分类: cs.CL, cs.DC
发表日期: 2026年1月29日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈

Diffusion Large Language Models（DLLMs）提供了一种有吸引力的替代方案，相较于 Auto‑Regressive 模型，但它们的部署受到高解码成本的限制。在 ...

[Paper] PaperBanana：为 AI 科学家自动化学术插图

尽管基于语言模型的自主 AI 科学家取得了快速进展，生成可用于出版的插图仍然是一个劳动密集型的瓶颈。

[Paper] 通用语言识别与生成

最近关于 language identification 和 generation 的研究已经确定了实现这些任务的紧密统计速率。这些工作通常…

[Paper] 现在你听见我：针对大型音频语言模型的音频叙事攻击

大型音频语言模型日益直接处理原始语音输入，使其能够在语音助手、教育等领域实现更无缝的整合……