[Paper] MedMO：用于医学影像的多模态大型语言模型的定位与理解

发布: 3天前 (2026年2月7日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06965v1

概览

MedMO 是一种新的多模态大型语言模型（MLLM），它弥合了前沿视觉‑语言 AI 与真实世界医学影像之间的鸿沟。通过在海量、特定领域的放射学、眼科和病理学数据上训练统一模型，作者展示了单一系统能够回答视觉问题、生成诊断报告、检索相似病例，并以边界框精度定位疾病部位——这些能力此前分散在专用工具中。

关键贡献

面向领域的预训练： 使用仅公开可得的医学图像‑文本对，将多个视觉编码器（CT、眼底、显微镜）与医学语言骨干对齐。
全面的指令微调： 覆盖五大核心任务——图像字幕生成、视觉问答、报告生成、图像‑文本检索以及基于位置的疾病定位。
带可验证奖励的强化学习： 引入双奖励机制（事实性 + 框级 GIoU），显式教会模型逐步推理并生成空间上精确的输出。
两种已发布模型规模（4B 与 8B 参数）： 让开发者可以选择轻量版用于边缘部署，或选择更大版本以获得研究级性能。
跨模态泛化能力： 在放射学、眼科和病理学数据集上验证，显示出相较于现有开源医学多模态大模型的一致提升。

方法论

跨模态预训练 – 视觉编码器（例如基于 ResNet 的 CT 编码器、用于眼底图像的 Swin‑Transformer）最初保持冻结，并与基于 LLaMA 的医学语言模型共同训练，以学习共享的嵌入空间。此步骤确保视觉特征可以用自然语言“描述”。
指令微调 – 模型接触一组模拟真实临床工作流的精心挑选提示：
- 字幕生成: “描述这张胸部 X‑ray 的发现。”
- VQA: “是否有气胸的证据？”
- 报告生成: “为这张图像撰写放射学报告。”
- 检索: “找出与此切片相似的病例。”
- 基于定位的描述: “在病变周围画一个框。”
  监督来自专家标注的数据集，提供文本答案和边界框标签。
带可验证奖励的强化学习 – 在指令微调之后，使用 PPO 进行微调。两个奖励信号引导学习：
- 事实性奖励 – 由独立的验证器检查生成的文本是否与已知医学事实一致（例如使用知识库或基于规则的检查）。
- 空间奖励 – 计算预测框与真实框之间的广义交并比（GIoU）；重叠度越高奖励越高。
  这种双奖励循环推动模型在准确推理和精确视觉定位两方面都取得进步。

Results & Findings

任务	指标	MedMO‑4B	MedMO‑8B	Baseline Open‑Source MLLM	Fleming‑VL (SOTA)
视觉问答（放射学）	准确率 ↑	+13.7 % 超过基线	–	–	接近 SOTA 1.9 %
基于文本的问答	准确率 ↑	+6.9 % 超过基线	–	–	+14.5 % 超过 Fleming‑VL
报告生成	临床 BLEU / CheXbert F1 ↑	显著提升（≈+12 % BLEU）	–	–	–
基于位置的定位	IoU ↑	+40.4 % 超过基线	–	–	+37.0 % 超过 Fleming‑VL
跨模态（放射学、眼科、病理学）	在所有数据集上持续改进	✓	✓	✗	✗

要点: MedMO 不仅大幅超越现有开源医学 MLLM，还显著缩小了与专有最先进 Fleming‑VL 的性能差距，尤其在空间推理方面——这对临床决策支持至关重要。

Practical Implications

临床决策支持： 放射科医生可以查询图像（“是否存在胸腔积液？”），并获得简洁的答案以及突出显示的区域，从而减少手动检查的时间。
自动化报告： 医院可以生成已经满足语义和临床准确性阈值的放射学或病理学报告初稿，让临床医生专注于解读而不是口述。
基于案例的学习与教育： 医学培训者可以检索具有视觉解释的相似历史案例，加速学习曲线。
边缘部署： 4B 版本可在现代 GPU（如 RTX 3080）上运行，支持在数据隐私要求严格的医院内部部署。
多专科集成： 由于模型能够处理 CT、眼底和显微镜图像，单一 AI 服务即可在放射科、眼科和病理科之间共享，简化基础设施和维护。

限制与未来工作

数据偏差: 训练数据来自公开可用的仓库，可能对罕见疾病或服务不足的人群代表性不足，可能限制模型的泛化能力。
可解释性超出框体: 虽然边界框定位是一步前进，但临床医生通常需要更丰富的解释（例如热图、文本推理），而这些尚未完全解决。
监管准备度: 该模型尚未进行正式的临床验证或 FDA 级别的评估，因此在生产环境部署需要额外的安全性研究。
未来方向: 作者计划从未标记的医院 PACS 档案中引入多模态自监督学习，扩展到 3‑D 成像（MRI/CT 体积），并整合结构化知识图谱以实现更深层次的推理。

作者

Ankan Deria
Komal Kumar
Adinath Madhavrao Dukre
Eran Segal
Salman Khan
Imran Razzak

论文信息

arXiv ID: 2602.06965v1
分类: cs.CV
发布日期: 2026年2月6日
PDF: 下载 PDF

[Paper] MedMO：用于医学影像的多模态大型语言模型的定位与理解

概览

关键贡献

方法论

Results & Findings

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 可靠的误标检测用于视频胶囊内镜数据

[Paper] 超越冗余的视角：任务复杂性在 VLLMs 中 Vision Token 专化中的作用

【论文】PANC：先验感知 Normalized Cut 用于目标分割

[论文] Prompt Reinjection：缓解多模态 Diffusion Transformers 中的 Prompt Forgetting