[Paper] 可靠的误标检测用于视频胶囊内镜数据

发布: (2026年2月7日 GMT+8 02:33)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.06938v1

概述

深度学习模型在医学影像领域的表现取决于其训练数据的质量——然而高质量的标签稀缺,因为它们需要专家医生的参与。本文提出了一套系统框架,用于 检测大型视频胶囊内镜(VCE)数据集中的错误标记样本,并展示了清洗数据能够提升异常检测性能。

关键贡献

  • 一种通用的误标检测流水线,可适用于任何基于图像或视频的医学数据集,仅需分类器的置信分数和一个小的验证集。
  • 应用于两个最大的公开 VCE 数据集(“Kvasir‑Capsule” 与 “Capsule‑Endoscopy” 集合),每个数据集包含数万帧低分辨率图像。
  • 人机交互验证:三位具备执业资格的胃肠科医生重新标注了被标记的样本,确认其中相当比例确实存在误标。
  • 定量改进:在剔除识别出的噪声标签后,最先进的异常检测器在原始噪声训练集的基础上实现了最高 +5.2 % AUC 的提升。
  • 开源发布 检测代码及清洗后的标注文件,确保可复现性并方便社区直接使用。

方法论

  1. 训练基线分类器(例如 ResNet‑50 或 EfficientNet)在原始、可能含噪声的数据集上。
  2. 使用 k‑折交叉验证 方案收集每个训练样本的预测置信度,以避免来自生成预测的模型的偏差。
  3. 根据两个简单启发式为每个样本打上 误标可能性 分数:
    • 低置信度(即使多次看到该样本,模型仍不确定)。
    • 跨折高度不一致(不同模型始终预测不同类别)。
  4. 按该可能性对样本进行 排序,将前 N 名候选样本交给领域专家进行人工审查。
  5. 迭代优化:专家重新标注后,在清洗后的数据集上重新训练分类器,如有必要重复检测步骤。

该方法刻意避免使用复杂的元学习技巧;它利用已有的模型输出,便于直接嵌入现有训练流水线。

结果与发现

数据集原始 AUC(异常检测)清洗后 AUC相对提升
Kvasir‑Capsule0.8420.894+6.2 %
Capsule‑Endoscopy0.8150.867+5.2 %
  • 误标率:约 8–10 % 的帧被标记为可疑;专家复核确认其中 ≈70 % 确实是错误标注。
  • 鲁棒性:检测流水线在两种截然不同的网络架构上表现一致,表明该信号并非模型特定。
  • 效率:仅需对前 5 % 的样本进行专家检查即可实现上述提升,使人工工作量保持在可管理范围。

实际意义

  • 更干净的训练数据 → 为胃肠科医生提供更可靠的 AI 助手,降低胶囊内镜筛查中的误报。
  • 快速质量控制工具,适用于从多家医院汇总数据的医学影像联盟,帮助在模型开发前强制执行标注标准。
  • 成本节约:通过提前捕获标注错误,机构可以避免昂贵的重新标注工作,并加速监管级模型认证。
  • 可推广至其他领域(如皮肤科、放射科),这些领域专家标注成本高且标签噪声常见。
  • 易于集成:该流水线可作为后处理步骤加入流行的机器学习平台(TensorFlow、PyTorch Lightning),无需大量代码修改。

限制与未来工作

  • 方法依赖于 足够表达能力的基础模型;极度欠拟合的分类器可能无法生成可靠的置信信号,从而限制检测能力。
  • 人工验证仍是瓶颈;未来研究可探索使用主动学习的半自动重新标注,以进一步降低专家工作负担。
  • 本研究聚焦于 二元异常检测(正常帧与异常帧)。将框架扩展到多类别病理标注(例如溃疡、出血、息肉)是一个未解之路。
  • 实际部署需要更积极地处理 流媒体视频数据类别不平衡——这些是作者计划进一步研究的方向。

作者

  • Julia Werner
  • Julius Oexle
  • Oliver Bause
  • Maxime Le Floch
  • Franz Brinkmann
  • Hannah Tolle
  • Jochen Hampe
  • Oliver Bringmann

论文信息

  • arXiv ID: 2602.06938v1
  • 分类: cs.CV, cs.LG
  • 发表时间: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »