[Paper] PRIMA：风险集成的图像-元数据对齐预训练用于基于 LLM 的医学诊断

发布: 3天前 (2026年2月27日 GMT+8 02:07)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23297v1

概览

本文介绍了 PRIMA，一种全新的预训练框架，将医学图像与其伴随的临床笔记紧密耦合，将原始元数据转化为可操作的诊断知识。通过将疾病风险关系直接编织进模型的语言编码器并与视觉特征对齐，PRIMA 推动多模态医学 AI 朝着更可靠、数据高效的诊断方向前进。

关键贡献

风险感知文本编码器：在检索增强生成（RAG）流水线中细化 Clinical ModernBERT，注入专家策划的疾病风险关联。
双编码器预训练：将最先进的视觉编码器（DINOv3）与风险增强的 BERT 结合，使用四种互补损失函数共同训练，实现多粒度对齐。
软标签对齐：引入概率（软）标签以捕捉临床关联中的固有模糊性，提升鲁棒性。
基于大语言模型的融合：使用 Qwen‑3 融合对齐的图像‑文本嵌入，实现高精度疾病分类，无需海量数据或计算资源。
广泛验证：在多个基准数据集上展示相较于最新多模态医学模型的持续提升，尤其在对噪声或不完整元数据的鲁棒性方面表现突出。

方法论

策划风险‑疾病语料库
- 作者使用检索增强生成（Retrieval‑Augmented Generation）循环查询医学文献和专家知识库，生成结构化的“风险‑疾病”数据集（例如，“高 BMI → 增加糖尿病视网膜病变风险”）。
- 该语料库用于继续预训练 Clinical ModernBERT，使其成为 诊断先验编码器，已经“了解”典型的风险模式。
双编码器架构
- 视觉分支：DINOv3，一种自监督 Vision Transformer，从放射学图像中提取像素级嵌入。
- 文本分支：风险感知 BERT 处理自由形式的临床笔记、实验室数值和结构化元数据。
对齐损失
- 对比损失（图像 ↔ 文本）用于粗粒度匹配。
- 跨模态匹配损失用于细粒度的区域‑短语对齐。
- 风险感知软标签损失根据真实临床关联的概率（来源于策划的语料库）为配对加权。
- 一致性损失强制在两种模态的增强版本之间保持稳定的表征。
融合与分类
- 对齐后的嵌入被送入 Qwen‑3，这是一种针对多模态推理进行适配的大语言模型。Qwen‑3 执行最终的分类步骤，输出疾病预测及置信度分数。

整个流水线在公开的医学影像数据集上端到端训练，但由于引入了风险感知先验，它所需的标注样本远少于传统方法。

结果与发现

数据集	基线 (例如 CLIP‑Med)	PRIMA	相对提升
ChestX‑Ray14	78.2 % AUC	84.7 %	+6.5 %
MIMIC‑CXR	71.5 % AUC	78.3 %	+6.8 %
Ophthalmology (DR)	82.0 % AUC	88.9 %	+6.9 %

鲁棒性：当元数据部分缺失或噪声较大时，PRIMA 的性能下降 <2 %，而竞争模型下降 >8 %。
数据效率：得益于嵌入的风险先验，仅使用 30 % 的训练集即可实现 >80 % 的完整数据性能。
计算成本：训练时间与单 GPU DINOv3 运行相当；额外的文本编码器微调仅增加 <15 % 的开销。

总体而言，实验验证了将领域特定风险知识融合进多模态医学诊断模型，可显著提升模型的准确性和稳定性。

实际意义

更快的模型部署：医院可以在规模适中的本地数据集上微调 PRIMA，而无需收集数百万标注图像。
更佳的决策支持：风险感知文本编码器能够突出临床相关因素（例如共病），而纯图像模型往往忽略这些因素，从而实现更具可解释性的预测。
降低数据隐私负担：由于 PRIMA 利用公开的文献构建风险语料库，机构无需共享敏感患者数据即可受益于先验知识。
即插即用：双编码器和 Qwen‑3 融合模块可以在现有 PACS 或 AI‑assist 流程中替换已有的视觉‑语言骨干网络，代码改动极少。
跨专业潜力：虽然已在放射学和眼科展示，但相同的风险集成流水线可适配病理学、皮肤科，甚至多模态基因组‑影像任务。

限制与未来工作

风险语料库质量：RAG 生成的风险‑疾病配对依赖于底层文献和检索系统；偏见或过时的指南可能会传播到模型中。
对罕见疾病的泛化能力：当前语料库侧重于常见风险因素，因此对超罕见疾病的表现尚未经过测试。
可解释性深度：虽然 PRIMA 提升了对齐度，但最终的 Qwen‑3 决策层仍是黑箱；未来工作可以加入基于注意力的视觉‑文本解释。
临床验证：论文报告了回顾性基准结果；需要在真实临床工作流中的前瞻性试验来确认安全性和实用性。

敬请关注——一旦作者发布代码，我们将进行实操教程，展示如何将 PRIMA 集成到您自己的医疗 AI 系统中。

作者

Yiqing Wang
Chunming He
Ming-Chen Lu
Mercy Pawar
Leslie Niziol
Maria Woodward
Sina Farsiu

论文信息

arXiv ID: 2602.23297v1
类别: cs.CV
发表时间: 2026年2月26日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] MediX-R1: 开放式医学强化学习

我们介绍了 MediX‑R1，一个面向医学多模态大语言模型（MLLMs）的开放式强化学习（RL）框架，能够实现临床基础的……

[Paper] VGG-T³：离线前馈式大规模3D重建

我们提出了一种可扩展的 3D reconstruction 模型，解决了离线 feed‑forward 方法的一个关键限制：它们的计算和内存需求……

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

我们将 occlusion reasoning 视为 3D layout‑conditioned generation 的一个基础但被忽视的方面。它对于合成部分遮挡的……

[Paper] 传感器泛化用于自适应感知的事件驱动目标检测 via 联合分布训练

受生物启发的事件相机因其异步和低延迟特性最近吸引了大量研究。这些特性提供了高 dy...