[Paper] SUREON:用于外科推理的基准与视觉语言模型

发布: (2026年3月7日 GMT+8 02:58)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.06570v1

Overview

本文介绍了 SUREON,一个新的基准和视觉‑语言模型(VLM),它教会 AI 系统对外科手术进行推理,而不仅仅是识别手术器械或解剖结构。通过从数千个外科讲座视频中挖掘口头解释,作者创建了一个大规模的问答(QA)数据集,捕捉外科医生的意图、安全评估以及对接下来会发生什么的预测——这些能力在现有的外科 AI 中一直缺失。

关键贡献

  • SUREON 数据集:134.7 K 视频片段,覆盖 170 种手术类型,自动标注为 206.8 K QA 对,涉及 12 类临床相关问题(如安全风险、决策依据、下一步预测)。
  • 专家验证基准:354 条人工检查示例,作为外科推理的高质量测试集。
  • SureonVLM:在 SUREON QA 对上微调的视觉语言模型,能够回答复杂的外科问题。
  • SureonVLM‑R1:使用组相对策略优化(GRPO)训练的增强推理模型,展示显式的逐步推理能力。
  • 实证提升:两个模型在 SUREON 基准上均达到 >84 % 的准确率,并在标准外科感知任务(器械检测、阶段识别等)上超越更大、通用领域的 VLM。

Source:

方法论

  1. 数据收集

    • 收集公开可用的外科讲座视频(例如学术会议、在线课程中的视频)。
    • 使用自动语音转文字技术获取外科医生在解释每一步时的旁白。
  2. 多代理标注流水线

    • 分段代理:将视频划分为短小、语义连贯的片段。
    • 问题生成代理:将旁白句子映射到 12 种预定义的问题模板之一(例如 “为什么这里使用仪器 X?”)。
    • 答案提取代理:从转录文本中提取相应的答案片段。
    • 该流水线在无需人工标注的情况下生成结构化的问答对,同时保留旁白中蕴含的丰富推理。
  3. 模型训练

    • SureonVLM:基于预训练的视觉‑语言骨干(如 CLIP 或 BLIP),在 Sureon QA 对上使用监督交叉熵损失进行微调。
    • SureonVLM‑R1:在 SureonVLM 基础上加入强化学习式目标(GRPO),该目标奖励模型在一组候选答案中生成相对更好的答案,促进更明确的推理步骤。
  4. 评估

    • 在专家验证的基准数据集(354 条示例)上的准确率。
    • 在现有外科感知数据集(仪器检测、阶段分类)上的迁移测试,以评估推理训练是否会削弱基本的感知能力。

结果与发现

  • Benchmark performance:SureonVLM‑R1 在 SUREON 基准上达到 84.3 % 的准确率,相比最强的通用领域 VLM(例如 GPT‑4‑V)提升了 +22 % 的相对改进。
  • Reasoning behavior:定性检查显示模型能够阐述 为何 选择特定工具,评估安全性(例如 “此步骤是否有出血风险?”),并预测下一步操作。
  • Perception transfer:两个 SureonVLM 变体在标准外科感知任务上保持或略有提升性能,表明推理监督不会削弱视觉理解。
  • Data efficiency:即使仅使用约 0.2 % 的全部 QA 对进行微调,模型仍能实现 >80 % 的基准准确率,说明多代理流水线能够提供高质量监督。

实际意义

  • 智能手术室助理:实时 AI 能够提醒外科医生潜在风险(“此剪切可能导致组织损伤”)或根据当前视野建议下一步操作。
  • 自动化外科教育:交互式辅导系统能够直接从手术视频流中回答学员的问题(“外科医生为何此时切换到吸引装置?”)。
  • 安全审计:术后视频分析标记外科医生决策偏离标准安全指南的时刻,支持质量控制工作流程。
  • 跨手术通用化:由于模型学习的是推理模式而非特定手术的视觉线索,它可以在极少额外数据的情况下适配新手术,对细分专科具有重要价值。

限制与未来工作

  • 噪声叙述:自动语音转文字的错误以及非正式的教学语言会导致视频内容与问答对之间偶尔出现不匹配。
  • 基准规模:经专家验证的集合相对较小(354 条示例),这可能限制对某些罕见问题类型的统计置信度。
  • 领域范围:当前数据聚焦于学术讲座视频;手术现场记录(例如实时手术)可能具有不同的视觉动态且叙述不够明确。
  • 未来方向
    • 融入多模态对齐(例如,将手术器械尖端轨迹与解释进行对齐)。
    • 通过众包验证扩展基准,以覆盖更多罕见手术。
    • 探索持续学习流水线,在新手术视频和标注出现时更新模型。

结论:SUREON 证明了手术动作背后的“原因”——已经嵌入教学视频中——可以大规模提取,用于训练具有人类外科医生推理能力的 AI。对于构建下一代手术室助理或教育工具的开发者而言,这项工作提供了丰富的数据集和经验证的建模方案,帮助从感知迈向真正的外科认知。

作者

  • Alejandra Perez
  • Anita Rau
  • Lee White
  • Busisiwe Mlambo
  • Chinedu Nwoye
  • Muhammad Abdullah Jamal
  • Omid Mohareri

论文信息

  • arXiv ID: 2603.06570v1
  • 分类: cs.CV, cs.AI
  • 发布日期: 2026年3月6日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »