[Paper] 分而诊断：为超长胶囊内镜视频编织临床医师启发的上下文

发布: 1天前 (2026年4月24日 GMT+8 00:07)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.21814v1

概述

胶囊内镜（Capsule endoscopy，CE）让医生能够让一个微型摄像头在患者的肠道中“飞行”，捕获长达数小时的胃肠道（GI）视频。虽然研究人员已经能够很好地识别单个异常帧，但他们仍然难以将整段超长视频转化为简洁、临床上有用的报告。本文定义了一项新的 诊断驱动视频摘要 任务，发布了首个带有报告级注释的真实世界 CE 数据集（VideoCAP），并提出了一种受临床医生启发的流水线（DiCE），模拟胃肠科医生实际阅读这些视频的方式。

关键贡献

新任务定义：诊断驱动的 CE 视频摘要——自动提取少量“证据帧”，这些帧共同支持正确的诊断。
VideoCAP 数据集：240 条完整 CE 视频（≈ 30 GB 总容量），标注了关键证据帧和最终临床诊断，来源于真实放射学报告。
DiCE 框架：一个三阶段系统，(1) 对原始视频进行候选帧筛选，(2) 将候选帧编织成连贯的诊断上下文，(3) 将多帧证据汇聚为剪辑级别的判断。
领先的性能：DiCE 在证据帧召回率和诊断准确率两方面均优于现有的视频级分类和摘要基线。
开源发布：代码、预训练模型和标注工具已公开，以促进进一步研究。

方法论

候选筛选 – 一个轻量级的 CNN 以低帧率（≈ 1 fps）扫描时长超过 10 分钟的视频，标记可能包含病变的帧（例如异常的纹理、颜色或形状）。这将搜索空间从数万帧缩减到几百帧。
上下文编织器 – 将筛选后的帧使用时间聚类算法分组为“上下文”，该算法遵循自然的阅读工作流：临床医生先定位可疑区域，然后前后滚动以从多个角度观察病灶。编织器构建 3‑5 秒的短片段，保留每个潜在病灶的连续性，同时剔除孤立噪声。
证据汇聚器 – 每个短片段被送入基于 Transformer 的编码器，聚合跨帧的视觉线索，生成稳健的片段级表示。随后轻量级分类器预测特定病变的存在（例如溃疡、血管畸形）。最后，决策融合模块将所有片段的预测结果合并，输出整体诊断，并挑选最具代表性的帧作为最终证据集。

整个流水线在单个 GPU 上端到端运行，单个视频的处理时间不足 2 分钟，使其在临床部署中具有实用性。

结果与发现

指标	DiCE	最佳基线 (ViViT)	相对增益
证据帧召回率 @ 5 帧	0.78	0.52	+50%
诊断准确率（top‑1）	0.91	0.84	+8%
摘要长度（帧）	7.3 ± 1.2	14.8 ± 3.5	少 50% 的帧
推理时间（每视频）	1.8 min	4.3 min	快 2.4 倍

关键要点

上下文推理（将帧分组为连贯的剪辑）至关重要；朴素的逐帧分类器会错过只有在短序列中观看才清晰的细微病变。
候选筛选步骤在不牺牲召回率的前提下降低计算负荷，证明粗到细的策略在超长医学视频中表现良好。
DiCE 的证据帧与专家胃肠科医生选取的帧高度一致（Cohen’s κ = 0.73），表明其具有很强的临床相关性。

实际意义

加速工作流程：放射科团队可以审阅 5 分钟的摘要，而不是 30 分钟的原始视频，将阅读时间缩短 > 50 %，同时保持诊断信心。
决策支持：系统可以标记高风险视频以进行即时审阅，帮助在繁忙的内镜科单元中优先处理紧急病例。
远程医疗与 AI 辅助筛查：在边缘设备（如医院服务器）上部署 DiCE，使远程专家能够收到简洁的诊断数据包，便于在不传输庞大视频文件的情况下进行二次诊断。
培训与教育：证据帧标注可作为宝贵的教学辅助工具，帮助初级临床医生学习识别细微的胃肠道病变。
监管路径：由于 DiCE 模仿人类阅读过程并提供可追溯的证据帧，它与新兴的 AI 医疗设备指南（要求可解释性）高度契合。

限制与未来工作

数据集规模与多样性：VideoCAP 虽然是同类中最大的，但仍仅覆盖有限的病理类型和患者人口统计学特征；需要更广泛的多中心收集来验证其泛化能力。
罕见病变：极其罕见的发现（例如小的黏膜下肿瘤）因训练样本不足而仍具挑战性。
实时约束：虽然推理速度快，但要实现真正的实时处理（胶囊实时流式传输数据）仍需进一步优化或专用硬件加速器。
可解释性深度：当前的证据帧是视觉的；将源自原始临床报告的文本解释整合进来，可提升非专业人士的可解释性。

未来研究方向包括使用多模态数据（如患者病史、实验室结果）扩展 VideoCAP，探索在未标记的 CE 影像上进行自监督预训练，以及将 DiCE 范式适配到其他超长医学视频领域，如结肠镜检查或术中内镜。

作者

Bowen Liu
Li Yang
Shanshan Song
Mingyu Tang
Zhifang Gao
Qifeng Chen
Yangqiu Song
Huimin Chen
Xiaomeng Li

论文信息

arXiv ID: 2604.21814v1
分类: cs.CV, cs.AI
发布日期: 2026年4月23日
PDF: 下载 PDF

[Paper] 分而诊断：为超长胶囊内镜视频编织临床医师启发的上下文

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] Trust-SSL：加性残差选择性不变性用于鲁棒航空自监督学习

[Paper] FedSIR：带噪声标签的联邦学习的谱客户端识别与重新标记