[Paper] 可靠的误标检测用于视频胶囊内镜数据
发布: (2026年2月7日 GMT+8 02:33)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.06938v1
概述
深度学习模型在医学影像领域的表现取决于其训练数据的质量——然而高质量的标签稀缺,因为它们需要专家医生的参与。本文提出了一套系统框架,用于 检测大型视频胶囊内镜(VCE)数据集中的错误标记样本,并展示了清洗数据能够提升异常检测性能。
关键贡献
- 一种通用的误标检测流水线,可适用于任何基于图像或视频的医学数据集,仅需分类器的置信分数和一个小的验证集。
- 应用于两个最大的公开 VCE 数据集(“Kvasir‑Capsule” 与 “Capsule‑Endoscopy” 集合),每个数据集包含数万帧低分辨率图像。
- 人机交互验证:三位具备执业资格的胃肠科医生重新标注了被标记的样本,确认其中相当比例确实存在误标。
- 定量改进:在剔除识别出的噪声标签后,最先进的异常检测器在原始噪声训练集的基础上实现了最高 +5.2 % AUC 的提升。
- 开源发布 检测代码及清洗后的标注文件,确保可复现性并方便社区直接使用。
方法论
- 训练基线分类器(例如 ResNet‑50 或 EfficientNet)在原始、可能含噪声的数据集上。
- 使用 k‑折交叉验证 方案收集每个训练样本的预测置信度,以避免来自生成预测的模型的偏差。
- 根据两个简单启发式为每个样本打上 误标可能性 分数:
- 低置信度(即使多次看到该样本,模型仍不确定)。
- 跨折高度不一致(不同模型始终预测不同类别)。
- 按该可能性对样本进行 排序,将前 N 名候选样本交给领域专家进行人工审查。
- 迭代优化:专家重新标注后,在清洗后的数据集上重新训练分类器,如有必要重复检测步骤。
该方法刻意避免使用复杂的元学习技巧;它利用已有的模型输出,便于直接嵌入现有训练流水线。
结果与发现
| 数据集 | 原始 AUC(异常检测) | 清洗后 AUC | 相对提升 |
|---|---|---|---|
| Kvasir‑Capsule | 0.842 | 0.894 | +6.2 % |
| Capsule‑Endoscopy | 0.815 | 0.867 | +5.2 % |
- 误标率:约 8–10 % 的帧被标记为可疑;专家复核确认其中 ≈70 % 确实是错误标注。
- 鲁棒性:检测流水线在两种截然不同的网络架构上表现一致,表明该信号并非模型特定。
- 效率:仅需对前 5 % 的样本进行专家检查即可实现上述提升,使人工工作量保持在可管理范围。
实际意义
- 更干净的训练数据 → 为胃肠科医生提供更可靠的 AI 助手,降低胶囊内镜筛查中的误报。
- 快速质量控制工具,适用于从多家医院汇总数据的医学影像联盟,帮助在模型开发前强制执行标注标准。
- 成本节约:通过提前捕获标注错误,机构可以避免昂贵的重新标注工作,并加速监管级模型认证。
- 可推广至其他领域(如皮肤科、放射科),这些领域专家标注成本高且标签噪声常见。
- 易于集成:该流水线可作为后处理步骤加入流行的机器学习平台(TensorFlow、PyTorch Lightning),无需大量代码修改。
限制与未来工作
- 方法依赖于 足够表达能力的基础模型;极度欠拟合的分类器可能无法生成可靠的置信信号,从而限制检测能力。
- 人工验证仍是瓶颈;未来研究可探索使用主动学习的半自动重新标注,以进一步降低专家工作负担。
- 本研究聚焦于 二元异常检测(正常帧与异常帧)。将框架扩展到多类别病理标注(例如溃疡、出血、息肉)是一个未解之路。
- 实际部署需要更积极地处理 流媒体视频数据 和 类别不平衡——这些是作者计划进一步研究的方向。
作者
- Julia Werner
- Julius Oexle
- Oliver Bause
- Maxime Le Floch
- Franz Brinkmann
- Hannah Tolle
- Jochen Hampe
- Oliver Bringmann
论文信息
- arXiv ID: 2602.06938v1
- 分类: cs.CV, cs.LG
- 发表时间: 2026年2月6日
- PDF: 下载 PDF