Wasserstein 对齐定位用于基于 VLM 的分布式 OOD 检测在医学影像中
发布: (2026年5月7日 GMT+8 01:32)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.05161v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接、格式和技术术语,仅翻译正文部分。
概述
在没有任何特定疾病训练数据的情况下检测医学图像中的罕见病理,是 AI 辅助放射学的圣杯。本文提出了 WALDO(Wasserstein‑Aligned Localisation for VLM‑Based Distributional OOD Detection),一个无需训练的框架,将零样本异常定位转化为 比较 推理问题。通过将患者扫描与精心挑选的 “normal” 参考补丁集进行匹配,WALDO 大幅提升了大型视觉‑语言模型(VLM)在脑部 MRI 扫描中精准定位异常区域的能力。
关键贡献
- 比较推理公式 – 将 zero‑shot localisation 重新表述为查询图像与健康解剖分布之间的结构化比较。
- 熵加权切片 Wasserstein 选择 – 使用 DINOv2 patch 嵌入上的最优传输距离,从大规模未标记池中挑选解剖相关的参考 patch。
- Goldilocks 区间采样 – 从理论和实证上表明,与查询具有 适度 相似度的参考(既不太近也不太远)能够为异常检测提供最佳的偏差‑方差权衡。
- 自一致性聚合 – 通过加权非极大值抑制合并多个比较得分,生成无需微调的鲁棒定位图。
- 最先进的 zero‑shot 性能 – 在 NOVA 脑 MRI 基准上,WALDO 将 Qwen2.5‑VL‑72B 的表现从约 36 % 提升至 43.5 % mAP@30,相对提升 19 %,并在 GPT‑4o 和 Qwen3‑VL‑32B 上实现一致的改进。
- 开源发布 – 提供完整代码和演示,支持即时实验。
方法论
- Patch embedding extraction – 输入的 MRI(或任意 2‑D 切片)被划分为重叠的补丁。每个补丁使用冻结的视觉编码器(例如 DINOv2)进行编码,以获得高维特征向量。
- Reference pool construction – 对大量健康脑部扫描进行相同处理,得到正常补丁嵌入的分布。
- Entropy‑weighted Sliced Wasserstein distance – 对每个查询补丁,WALDO 计算其与参考分布的切片 Wasserstein 距离,并根据相应 DINOv2 token 的熵对每个切片加权。高熵补丁(更“信息丰富”)对距离的影响更大,确保解剖学相关性。
- Goldilocks zone sampling – 与其使用最近的参考(可能过度偏倚)或最远的参考(会引入噪声),WALDO 选择相似度位于中间“Goldilocks”区间的参考。作者证明该区间可最小化比较估计器的期望误差。
- Comparative scoring with VLM – 将每个选中的参考与查询补丁配对,输入冻结的 VLM(例如 Qwen2.5‑VL‑72B)。模型输出相似度分数,表示参考对查询的解释程度。
- Self‑consistency aggregation – 使用加权非极大值抑制(NMS)合并来自多个参考的分数,该方法倾向于参考之间的一致性,同时抑制离群值,生成最终的异常热图。
- Zero‑shot localisation – 对热图进行阈值化以获得像素级异常掩码,整个过程无需任何特定任务的训练。
结果与发现
| 模型 (VLM) | mAP@30 (± SD) | 相对增益(相较基线) |
|---|---|---|
| Qwen2.5‑VL‑72B | 43.5 % ± 1.6 | +19 % |
| GPT‑4o | 32.0 % ± 6.5 | +14 % |
| Qwen3‑VL‑32B | 32.0 % ± 6.6 | +14 % |
- 统计显著性: 配对 McNemar 检验的 p < 0.01,适用于所有改进。
- 消融实验: 移除熵加权或 Goldilocks 采样会导致性能下降约 5–7 %,验证了每个组件的贡献。
- 跨模型鲁棒性: 相同的参考选择流水线可在不同规模和架构的 VLM 上使用,表明收益来源于比较框架本身,而非特定模型。
实际意义
- 在低资源环境中的快速部署: 由于 WALDO 不需要微调,医院可以直接接入任何现成的 VLM,立即开始检测罕见异常。
- 可扩展至新模态: 该流水线只需一个健康样本池;将其扩展到 CT、X 光或组织病理学,只需收集未标注的正常扫描。
- 放射科医生的辅助工具: 热图突出可疑区域,使临床医生能够将审查重点放在更小的范围内,可能降低阅读时间和漏诊率。
- 合规友好: 无需训练的方法规避了许多数据隐私问题,因为参考池可以保存在本地,永不离开机构。
- 混合 AI 系统的基础: WALDO 的比较推理可与轻量级下游分类器(例如小型 CNN)结合,形成两阶段流水线,首先标记候选区域,然后细化诊断。
限制与未来工作
- 对参考质量的依赖: 如果健康池缺乏足够的解剖多样性(例如年龄、扫描仪类型),Wasserstein 距离可能会误判正常变异,导致假阳性。
- 计算开销: 对每个补丁计算切片 Wasserstein 距离并采样多个参考会耗费大量计算资源;作者建议使用近似 OT 求解器以加速。
- 二维切片聚焦: 实验仅限于二维脑部 MRI 切片;将方法扩展到完整的三维体积并处理切片间一致性仍是未解挑战。
- VLM 的领域迁移: 虽然该方法在多个视觉语言模型上有效,但极端的领域差距(例如非医学图像)可能削弱 VLM 的比较评分能力。未来工作可探索领域适配的提示或轻量级适配器。
- 用户研究: 论文未包含放射科医生的可用性测试;评估临床医生如何使用 WALDO 的热图对于实际部署至关重要。
WALDO 表明,巧妙运用最优传输理论和比较推理能够释放大型视觉语言模型在医学异常定位上的零样本潜力——为更灵活、数据高效的医疗 AI 工具开辟了道路。
作者
- Bernhard Kainz
- Johanna P Mueller
- Matthew Baugh
- Cosmin Bercea
论文信息
- arXiv ID: 2605.05161v1
- 分类: cs.CV
- 发布时间: 2026年5月6日
- PDF: 下载 PDF