SurgMLLMBench:用于外科场景理解的多模态大语言模型基准数据集
发布: (2025年11月26日 GMT+8 20:44)
6 min read
原文: arXiv
Source: arXiv - 2511.21339v1
概览
本文介绍了 SurgMLLMBench,一个将像素级器械分割与结构化视觉问答(VQA)数据结合在一起的全新基准,涵盖腹腔镜、机器人辅助手术和显微手术。通过在统一的分类体系下整合这些模态,作者为研究者提供了一种一致的方式来训练和评估能够“看”和“说”手术场景的多模态大型语言模型(LLM)。
主要贡献
- 统一的多模态数据集,结合了高分辨率视频帧、像素级器械掩码以及针对三种手术领域(腹腔镜、机器人、显微手术)的 VQA 对。
- MAVIS 子数据集(Micro‑surgical Artificial Vascular anastomosIS)——首个公开的显微手术视频集,提供详细的分割和推理标注。
- 标准化的分类体系,用于器械、动作和解剖结构,消除了早期手术 VQA 语料库中常见的分类漂移问题。
- 基线实验表明,单一多模态 LLM 在整个基准上进行训练后,仍能在每个领域保持竞争力,并对未见过的手术数据集表现出强大的泛化能力。
- 开源发布计划,旨在促进可重复性并加速交互式手术 AI 的研究。
方法论
- 数据收集与标注——作者从真实的腹腔镜和机器人辅助手术中收集了数千帧视频,并新增了显微手术录像。经过培训的标注员完成了:
- 分割掩码:为每个可见器械像素提供标注。
- VQA 对(问题、答案),涵盖器械识别、手术步骤以及解剖上下文。
- 分类体系设计——定义并统一应用了一套层级标签结构(例如 Instrument → Type → Tip;Action → Grasp → Cut)于所有领域。
- 模型训练——在合并数据集上对多模态 LLM(视觉编码器 + 语言解码器)进行微调,使用平衡分割(像素级交叉熵)和 VQA(答案 token 的交叉熵)的联合损失。
- 评估协议——基准报告包括:
- 分割 IoU(交并比),按器械类别统计。
- VQA 准确率(精确匹配)以及自由形式答案的 BLEU/ROUGE。
- 跨域迁移测试,即在模型未训练的领域上进行评估。
结果与发现
- 统一模型在三个领域的器械分割上实现了 ≈78 % 的平均 IoU,达到或超过了专用领域基线。
- VQA 性能达到 ≈71 % 的精确匹配准确率,在推理类问题(如“外科医生为何更换工具?”)上表现尤为突出。
- 在一个外部腹腔镜数据集(训练期间未见)上测试时,模型仍保持 ≈75 % 的 IoU 和 ≈68 % 的 VQA 准确率,展示了稳健的泛化能力。
- 消融实验表明,分割 + VQA 的联合训练比仅在 VQA 上训练能获得更高的 VQA 分数,凸显了视觉 grounding 的益处。
实际意义
- 手术辅助工具:外科医生可以实时向 AI 助手提问(如“当前看到的是什么器械?”或“血管是否已完全夹闭?”),获得文本解释和高亮掩码。
- 培训模拟器:医学教育者可将模型嵌入 VR/AR 平台,提供关于器械操作和手术步骤的即时反馈。
- 自动化文档:通过从记录的手术录像中提取关键动作和器械使用信息,自动生成术后报告。
- 跨平台 AI 开发:由于基准覆盖腹腔镜、机器人和显微手术,开发者可以构建单一模型适配多种硬件配置,降低工程成本。
局限性与未来工作
- 数据集多样性:虽然基准涵盖了三大领域,但仍主要来源于少数医院和手术团队,可能受限于文化或设备差异。
- 实时约束:基线模型在离线环境下评估,实际手术中对延迟和硬件需求的可行性仍待验证。
- 标注粒度:当前 VQA 对侧重于高层次推理,未覆盖更细粒度的问题(如力估计、组织变形)。
- 未来方向:作者计划将基准扩展至更多专科(如耳鼻喉、骨科),加入音频或触觉等多模态数据,并探索轻量化模型架构以实现设备端推理。
作者
- Tae-Min Choi
- Tae Kyeong Jeong
- Garam Kim
- Jaemin Lee
- Yeongyoon Koh
- In Cheul Choi
- Jae-Ho Chung
- Jong Woong Park
- Juyoun Park
论文信息
- arXiv ID: 2511.21339v1
- 分类: cs.CV, cs.AI
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF