[Paper] 自适应学习用于抗核抗体图像

发布: 2个月前 (2025年11月26日 GMT+8 23:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21519v1

概述

本文提出了一种 自步学习框架，能够直接从原始显微镜图像中自动检测抗核抗体（ANA）。通过将 ANA 检测视为多实例、多标签（MIML）问题，作者在无需任何手工预处理的情况下实现了最先进的性能，为更快速、更可靠的自身免疫疾病诊断铺平了道路。

端到端 MIML 流水线，直接作用于未处理的荧光显微镜图像，消除了昂贵的人工预处理步骤。
实例采样器，通过建模模式置信度过滤低置信度的图像块，降低无关区域的噪声。
概率伪标签分配器，根据实例的视觉可区分性动态分配软标签，模拟人类专家对子区域观察的汇总方式。
自步权重学习，在训练过程中逐步调整实例重要性，使模型先关注“容易”的模式，再处理更困难、模糊的样本。
全面的实证验证，在专有 ANA 数据集和三个公开医学 MIML 基准上实现了最高 +7.0 % F1‑Macro 和 +12.6 % mAP 的提升，超越了此前的最佳方法。
开源实现（GitHub），便于复现和快速采用。

问题表述 – 将每张全片 ANA 图像视为由多个小块（实例）组成的 bag。该 bag 可包含多种抗体模式，因而任务本质上是 多实例、多标签。
实例采样器 – 轻量级置信度估计器为每个图像块打分。置信度低的块被降权或丢弃，防止噪声背景污染学习信号。
伪标签分配器 – 不对每个块强制硬标签，而是生成 概率伪标签，反映块呈现特定 ANA 模式的置信程度。这类似于临床医生的“我看到一点该模式的迹象，但并不百分百确定”。
自步学习（SPL） – 训练分阶段进行。早期 epoch 优先使用高置信度块（“容易”样本）。随着模型成熟，SPL 调度器逐渐提升困难、模糊块的权重，使网络在不被初期淹没的情况下细化决策边界。
端到端优化 – 三个组件均可微分，并集成到单一深度学习骨干网络（如 ResNet）中。整个系统联合训练，使采样器、分配器和 SPL 系数共同适应数据。

这些提升在不同医学影像领域均保持一致，证实了自步、伪标签策略在 ANA 检测之外的通用性。消融实验表明，去除任一组件（采样器、分配器、SPL）都会导致性能下降 4–9 %，凸显它们的互补作用。

数据集多样性 – 主要 ANA 数据集来源于单一临床中心；需在更多中心进行验证，以确认在不同显微镜品牌、染色方案和患者群体下的鲁棒性。
标签粒度 – 虽然伪标签分配器处理了模糊性，但系统仍依赖固定的已知 ANA 模式集合；发现新颖或罕见模式仍需额外的无监督模块。
计算开销 – 实例采样和 SPL 调度在每个训练批次引入额外前向传播，对硬件资源有限的情况下可能成为瓶颈。
未来方向 – 作者建议探索在未标记显微镜数据上进行 自监督预训练，将框架扩展至 3‑D 体积成像，并加入 主动学习 环路，将不确定的图像块返回给病理学家进行有针对性的标注。

如果您是开发者并希望尝试代码或将流水线适配到自己的成像工作流，仓库中提供了可直接运行的 Docker 镜像以及在自定义数据集上训练的详细说明。