[论文] 面向可靠且可解释的指甲疾病分类：利用对抗训练和 Grad-CAM 可视化

发布: 4天前 (2026年2月5日 GMT+8 02:08)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.04820v1

概览

一项新研究提出了一套深度学习流水线，能够通过照片自动识别六种常见指甲疾病，>95 % accuracy。作者通过结合对抗训练以提升鲁棒性，并使用可视化解释工具（Grad‑CAM/SHAP），旨在提供一个不仅性能出色且能够向临床医生说明为何做出特定决策的模型——这是实现皮肤科可信 AI 的关键一步。

关键贡献

对四种最先进的 CNN 进行基准测试（InceptionV3、DenseNet201、EfficientNetV2、ResNet50），使用公开的指甲图像数据集（3,835 个样本，224 × 224 像素）。
实现顶级性能：InceptionV3 达到 95.57 % 的准确率，超越其他架构。
引入对抗训练，增强分类器对噪声或边缘图像的鲁棒性，降低在挑战性案例中的误分类。
提供模型可解释性，通过 Grad‑CAM 热图（以及 SHAP 值）突出显示驱动每个预测的指甲区域，帮助用户验证模型关注医学相关特征。
将工作流打包为可复用的 Python 流水线，可直接集成到临床决策支持工具或远程皮肤科应用中。

方法论

数据准备 – 所有图像均被调整为统一的 224 × 224 像素分辨率并进行归一化。数据集使用分层抽样划分为训练/验证/测试集，以保持类别平衡。
模型训练 – 对每个 CNN 在指甲疾病数据上进行微调，使用标准的交叉熵损失和 Adam 优化器。早停和学习率调度防止过拟合。
对抗鲁棒性 – 训练期间，作者实时生成 FGSM（快速梯度符号方法）扰动，并将这些对抗样本重新输入网络，促使其学习更具不变性的特征。
可解释性 – 推理后，对最终卷积层应用 Grad‑CAM 生成指甲图像的热图。与此同时，计算 SHAP（SHapley Additive exPlanations）值，以量化每个像素对预测类别的贡献。
评估 – 按类别报告准确率、精确率、召回率和 F1‑score，并通过对抗扰动测试图像上性能下降的幅度来衡量鲁棒性。

结果与发现

模型	准确率	鲁棒性（对抗测试的Δ）
InceptionV3	95.57 %	–1.2 %
DenseNet201	94.79 %	–1.5 %
EfficientNetV2	93.6 %	–2.0 %
ResNet50	92.3 %	–2.3 %

对抗训练 将受扰动图像的准确率下降降低约30 %，相较于普通训练，证实了韧性提升。
Grad‑CAM 可视化 始终突出指甲板及其周围病变，符合皮肤科医生的视觉线索。
SHAP 分析 显示颜色变化（如苍白、变色）和纹理模式是最强的预测特征，为模型推理提供了量化洞察。

实际意义

临床决策支持 – 轻量化的 InceptionV3 模型可以嵌入电子健康记录（EHR）系统或移动应用，为医生提供第二意见，加快指甲相关疾病的分诊速度。
远程皮肤科 – 患者可以上传指甲自拍照；后端运行稳健的分类器并返回置信度分数及解释热图，帮助远程临床医生评估是否需要面对面就诊。
质量保证 – 可视化解释充当开发者的检查点，能够快速检测数据集偏差（例如背景伪影），从而在部署前进行纠正。
监管准备 – 通过提供可解释的输出，系统符合日益兴起的健康 AI 指南，对透明性和可追溯性提出的要求。

限制与未来工作

数据集范围 – 公共数据集仅包含 3.8 k 张图像和六个疾病类别；罕见的指甲疾病未被覆盖，限制了泛化能力。
临床验证 – 本研究仅停留在技术评估；需要与皮肤科医生合作的前瞻性试验，以确认诊断效用和安全性。
实时性能 – 虽然 InceptionV3 相对快速，但在边缘设备（如智能手机）上部署可能需要模型剪枝或量化。
未来方向 – 通过多民族样本扩展数据集，加入多模态数据（患者病史、实验室结果），并探索自监督预训练，以进一步提升模型的鲁棒性和可解释性。

作者

Farzia Hossain
Samanta Ghosh
Shahida Begum
B. M. Shahria Alam
Mohammad Tahmid Noor
Md Parvez Mia
Nishat Tasnim Niloy

论文信息

arXiv ID: 2602.04820v1
分类: cs.CV, cs.AI, cs.LG
发表时间: 2026年2月4日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中，我们提出了一种对 PInv 的自然推广……

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

高效且持续地将 large pretrained models 适配到新任务对于 real‑world deployment 至关重要，但由于 catastrophic forgetting 等挑战仍然困难。

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同

为了完成人类以 natural language 提供的任务，机器人必须解释指令，生成并回答与 scene understanding 相关的问题，……

[Paper] GenArena：我们如何实现对视觉生成任务的人类对齐评估？

视觉生成模型的快速发展已经超出了传统评估方法的步伐，迫切需要采用 Vision-Language Models 作为替代……