[Paper] 可靠的误标检测用于视频胶囊内镜数据

发布: 3天前 (2026年2月7日 GMT+8 02:33)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.06938v1

概述

深度学习模型在医学影像领域的表现取决于其训练数据的质量——然而高质量的标签稀缺，因为它们需要专家医生的参与。本文提出了一套系统框架，用于 检测大型视频胶囊内镜（VCE）数据集中的错误标记样本，并展示了清洗数据能够提升异常检测性能。

一种通用的误标检测流水线，可适用于任何基于图像或视频的医学数据集，仅需分类器的置信分数和一个小的验证集。
应用于两个最大的公开 VCE 数据集（“Kvasir‑Capsule” 与 “Capsule‑Endoscopy” 集合），每个数据集包含数万帧低分辨率图像。
人机交互验证：三位具备执业资格的胃肠科医生重新标注了被标记的样本，确认其中相当比例确实存在误标。
定量改进：在剔除识别出的噪声标签后，最先进的异常检测器在原始噪声训练集的基础上实现了最高 +5.2 % AUC 的提升。
开源发布 检测代码及清洗后的标注文件，确保可复现性并方便社区直接使用。

训练基线分类器（例如 ResNet‑50 或 EfficientNet）在原始、可能含噪声的数据集上。
使用 k‑折交叉验证 方案收集每个训练样本的预测置信度，以避免来自生成预测的模型的偏差。
根据两个简单启发式为每个样本打上 误标可能性 分数：
- 低置信度（即使多次看到该样本，模型仍不确定）。
- 跨折高度不一致（不同模型始终预测不同类别）。
按该可能性对样本进行排序，将前 N 名候选样本交给领域专家进行人工审查。
迭代优化：专家重新标注后，在清洗后的数据集上重新训练分类器，如有必要重复检测步骤。

该方法刻意避免使用复杂的元学习技巧；它利用已有的模型输出，便于直接嵌入现有训练流水线。

数据集	原始 AUC（异常检测）	清洗后 AUC	相对提升
Kvasir‑Capsule	0.842	0.894	+6.2 %
Capsule‑Endoscopy	0.815	0.867	+5.2 %