[Paper] 使用 Spike-Driven Video Transformer 的外科场景分割,具备实时潜力
发布: (2025年12月25日 GMT+8 01:05)
7 min read
原文: arXiv
Source: arXiv - 2512.21284v1
(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)
概述
本文介绍了 SpikeSurgSeg,一种基于脉冲驱动的视频 Transformer,专为实时外科场景分割而设计。通过将脉冲神经网络(SNN)与 Transformer 主干相结合,作者实现了与重量级 ANN 模型相当的分割质量,同时大幅降低了延迟和功耗——使其能够在手术室的低功耗、非 GPU 硬件上部署。
关键贡献
- 首个用于手术的脉冲驱动视频Transformer – 一种新颖的架构,将视频帧处理为稀疏脉冲流,在不需要传统CNN/Transformer管线的高计算量的情况下保留时间上下文。
- 手术场景掩码自编码预训练 – 一种自监督方案,对脉冲的时空“管”进行掩码,迫使主干网络从有限的标注数据中学习鲁棒表征。
- 轻量级脉冲驱动分割头 – 生成时间一致的掩码,同时保持极低的推理延迟。
- 边缘硬件上的实时性能 – 实验证明相较于最先进的ANN模型延迟降低≥8倍,较大型基础模型加速>20倍,且不牺牲平均交并比(mIoU)。
- 广泛验证 – 在公开的EndoVis18基准和专有的SurgBleed数据集上的实验显示出竞争性的准确率(mIoU 与SOTA 相差仅几分),且计算量大幅降低。
方法论
- Spike‑driven backbone – 作者从 Vision Transformer (ViT) 开始,但将标准的密集激活替换为由泄漏积分‑发放 (LIF) 神经元产生的二进制脉冲。这产生了在空间和时间上自然稀疏的类似事件的数据。
- Masked autoencoding pre‑training – 受 MAE 启发,他们随机掩蔽连续的“tube”(跨多个帧的空间补丁)脉冲活动。网络学习重建缺失的脉冲,促使其捕获长程时空模式,而无需像素级标签。
- Layer‑wise tube masking – 掩蔽在 Transformer 层之间逐层应用,使得早期层专注于低层次的运动线索,而更深层捕获更高层次的语义。
- Segmentation head – 一个小型的基于脉冲的解码器(几层线性层后接脉冲 softmax)将 Transformer 输出上采样到像素级类别得分。通过将前一帧的脉冲状态输入当前步骤,实现时间一致性,从而得到平滑的掩码轨迹。
- Training pipeline – 在自监督预训练后,使用标准交叉熵损失在有限的手术分割标签上微调主干网络,而脉冲动力学保持不变。
Results & Findings
| 数据集 | mIoU (SpikeSurgSeg) | mIoU (Best ANN) | 推理延迟 (ms) | 相对于 ANN 的加速 |
|---|---|---|---|---|
| EndoVis18 | 71.2 % | 73.0 % | 12 ms (CPU) | ≥ 8× |
| SurgBleed (in‑house) | 68.5 % | 70.1 % | 14 ms (CPU) | ≥ 8× |
- Accuracy: Spike‑驱动模型的 mIoU 仅比最高的 ANN 基线低约 1–2 个百分点,考虑到硬件节省,这一差距可以忽略不计。
- Latency: 在典型的边缘 CPU(如 Intel i5)上,端到端流水线每帧运行时间低于 15 ms,满足实时(> 60 fps)需求。
- Power: 由于脉冲是二进制的且大多数神经元保持沉默,估计的能耗比密集 ANN 推理低一个数量级。
- Robustness: 与逐帧 ANN 基线相比,时间一致性指标(如 video IoU)提升约 5 %,这归功于递归脉冲状态。
实际意义
- 在手术室的边缘部署 – 外科医生可以在紧凑的电池供电设备上运行高质量场景分割(例如 Jetson Nano,甚至带神经加速器的微控制器),无需专用 GPU。
- 降低成本并简化集成 – 医院可以为现有的腹腔镜工作站加装廉价计算模块,加速 AI 辅助安全功能(出血检测、器械跟踪、解剖标注)的采用。
- 能耗感知机器人 – 需要长时间手术的自主外科机器人受益于降低的功耗,延长电池寿命并减小热负荷。
- 数据高效训练 – 掩码自编码预训练缓解了标注外科视频的长期短缺,使开发者能够从相对较小的数据集快速构建模型。
- 开源潜力 – 基于脉冲的 Transformer 架构可以移植到流行的 SNN 框架(如 BindsNET、SpykeTorch),让更广泛的社区在手术之外(例如工业检测、AR/VR)尝试低延迟视频 AI。
限制与未来工作
- 硬件特定性 – 虽然作者在 CPU 上进行基准测试,但在专用神经形态芯片(Loihi、TrueNorth)上实际部署可能需要额外的工程工作,以充分利用脉冲并行性。
- 对其他手术过程的泛化能力 – 本研究聚焦于腹腔镜出血和 EndoVis 任务;在开放手术影像或其他模态(例如超声)上的表现尚未测试。
- 脉冲量化开销 – 将传统视频流转换为脉冲会引入一个预处理步骤,可能在超低功耗设备上成为瓶颈。
- 未来方向 – 作者建议探索混合 SNN‑ANN 流水线,将掩码自编码器扩展到多模态输入(例如工具运动学),并将该方法扩展到全身外科机器人场景。
作者
- Shihao Zou
- Jingjing Li
- Wei Ji
- Jincai Huang
- Kai Wang
- Guo Dan
- Weixin Si
- Yi Pan
论文信息
- arXiv ID: 2512.21284v1
- 类别: cs.CV
- 发布日期: 2025年12月24日
- PDF: Download PDF