[Paper] 任务无关的持续学习用于胸部X光片分类

发布: 3天前 (2026年2月18日 GMT+8 02:47)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.15811v1

概述

本文介绍了 CARL‑XRay，一种持续学习框架，使胸部 X 光分类器能够在新数据集到来时进行演进——无需在所有先前图像上重新训练或保留原始扫描文件。通过将每个新到达的数据集视为单独的“任务”，并自动将输入路由到相应的任务特定适配器，该方法承诺在显著降低训练开销的同时，保持诊断性能的稳定。

关键贡献

任务无关的持续学习用于医学影像：首次处理顺序的、异构的胸部X光数据集，且在推理时任务标签未知。
基于适配器的路由架构（CARL‑XRay）：冻结的高容量主干加上轻量级、按任务的适配器和分类头，能够在运行时动态添加。
潜在任务选择器，使用紧凑的原型和特征层经验回放，在不存储原始图像的情况下识别正确任务。
参数高效更新：每个数据集仅学习几百千字节的新参数，而完整模型重新训练需要数百万参数。
实证验证在多个大型公开胸部X光数据集上，展示了更高的路由准确率（75 % 对比 62.5 %）以及与联合训练相当的AUROC（≈0.75）。

方法论

固定骨干网络 – 一个大型卷积（或基于 transformer 的）编码器在通用胸片语料库上预训练一次，然后冻结。
任务特定适配器 – 对于每个新数据集，在骨干网络后附加一个小的瓶颈模块（适配器）和一个轻量分类头。这些适配器学习领域特定的细微差别（例如，不同医院的协议、标签集）。
基于原型的任务选择器 – 系统保留一组紧凑的按类别划分的特征原型，来源于过去的任务。当新图像到来时，其骨干特征会通过每个适配器，选择器挑选出原型与得到的表示最匹配的任务。
特征层经验回放 – 方法不存储原始图像，而是在适配器训练期间回放已存储的特征向量（及其原型），在保持隐私和低存储成本的同时保留先前任务的知识。
训练循环 – 当出现新数据集时，仅更新新的适配器、分类头和选择器；骨干网络保持不变。这种“即插即用”方式实现了快速增量更新。

结果与发现

指标	联合训练（oracle）	CARL‑XRay（oracle）	CARL‑XRay（任务未知）
AUROC	0.76	0.74	0.75
路由准确率	–	75 %	75 %
路由准确率（基线）	–	62.5 %	62.5 %
每任务额外可训练参数	~10 M	~0.3 M	~0.3 M

性能保持: 在最多 5 个连续数据集添加后，AUROC 下降不到 2 %，相较于在所有数据上联合训练的模型。
任务识别: 即使相同的疾病标签在不同视觉分布的数据集中出现，选择器也能可靠地区分任务。
内存占用: 仅存储适配器、头部和原型缓冲区，省去原始图像存档的需求。

实际影响

医院中的持续部署: 放射学 AI 系统可以使用新的本地数据（例如新的扫描仪供应商或地区性疾病爆发）进行更新，而无需昂贵的全量再训练流程。
合规友好性: 由于 backbone 保持不变，核心“已验证”模型保持一致，从而简化合规审计；仅需对小型、可审计的 adapters 进行版本控制。
边缘友好更新: 微小的 adapter 模块可以通过空中下载方式发送到本地服务器甚至边缘设备，实现快速的模型刷新。
数据隐私: 通过不持久化原始图像，仅使用匿名化的特征原型，组织能够在遵守 HIPAA/GDPR 约束的同时受益于持续学习。
开发者工作流: 集成只需加载冻结的 backbone，附加新的 adapter，并调用 selector；无需自定义数据管道或大型 GPU 集群。

限制与未来工作

任务相似性假设： 选择器依赖于可区分的特征原型；高度重叠的数据集可能导致路由混淆。
原型存储增长： 虽然远小于原始图像，但原型缓冲区仍随任务数量线性增长；需要更智能的摘要或剪枝策略。
评估范围： 实验聚焦于公开的胸部 X‑ray 数据集；真实临床环境中的标签漂移、多模态输入或极端类别不平衡仍需测试。
向其他模态的扩展： 未来工作可以探索 adapter‑routing 范式是否能够迁移到 CT、MRI 或非影像时间序列数据。

作者

Muthu Subash Kavitha
Anas Zafar
Amgad Muneer
Jia Wu

论文信息

arXiv ID: 2602.15811v1
分类: cs.CV, cs.AI
出版日期: 2026年2月17日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…

[Paper] 理解 vs. 生成：在多模态模型中的优化困境导航

当前对多模态模型的研究面临一个关键挑战，即提升生成能力往往会以牺牲理解能力为代价，反之亦然……

[Paper] 用 LoRAs 的权重基跨越视觉类比空间

视觉类比学习通过示范而非文本描述实现图像操作，使用户能够指定不同的复杂转换。

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...