[Paper] XtraLight-MedMamba用于新生性管状腺瘤的分类

发布: (2026年2月5日 GMT+8 02:07)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.04819v1

概述

一种名为 XtraLight‑MedMamba 的全新超轻量深度学习框架解决了数字病理学中的现实问题:自动区分可能进展为结直肠癌的增生性管状腺瘤与不太可能的腺瘤。通过仅使用约 32 k 可训练参数即可实现 >97 % 的准确率,该工作表明,高性能组织病理学 AI 既可以准确 在普通硬件上部署——这对医院和健康科技初创公司都具有吸引力。

关键贡献

  • Hybrid architecture 将 ConvNext 浅层特征提取器与并行的 Vision‑Mamba 模块融合,捕获局部纹理和长程空间依赖。
  • Spatial‑and‑Channel Attention Bridge (SCAB) 用于多尺度特征增强,且计算负担轻。
  • Fixed Non‑Negative Orthogonal Classifier (FNOClassifier) 大幅降低可训练参数数量,同时提升泛化能力。
  • State‑of‑the‑art performance 在精心策划的低级管状腺瘤全切片图像(WSI)数据集上达到 97.18 % 的准确率和 0.9767 的 F1‑score。
  • Parameter efficiency:约 32 k 参数,远少于可比的基于 transformer 或 vanilla Mamba 的模型,使其能够在边缘设备或低成本 GPU 上进行推理。

方法论

  1. Data preparation – Whole‑slide images from colonoscopy biopsies were split into case (patients later developing CRC) and control groups. Standard tiling and color normalization were applied to create a balanced training set.
  2. Feature extraction – A shallow ConvNext block extracts low‑level visual cues (edges, nuclei shapes). In parallel, a Vision‑Mamba (state‑space) module processes the same tiles, learning long‑range dependencies that are crucial for spotting subtle dysplastic patterns.
  3. Attention bridging – The SCAB module receives outputs from both streams, applying spatial attention (where to look) and channel attention (what features matter) across multiple scales. This step amplifies discriminative signals without adding many layers.
  4. Classification head – Instead of a conventional fully‑connected layer, the authors employ an FNOClassifier. Its weights are fixed, orthogonal, and constrained to be non‑negative, which forces the network to learn robust, linearly separable representations while keeping the parameter count tiny.
  5. Training & evaluation – Standard cross‑entropy loss with class‑balanced weighting was used. Performance was measured via accuracy, precision, recall, and F1‑score on a held‑out test set.

结果与发现

指标XtraLight‑MedMambaPrior Transformer‑basedVanilla Mamba
准确率97.18 %93.4 %94.1 %
F1分数0.97670.9380.951
参数≈32 k~2 M~1.5 M
推理时间(每块,1080 Ti)~3 ms~12 ms~10 ms

该模型不仅优于更庞大的基线,而且实现了 模型规模降低30倍,这证实了 SCAB + FNO 设计能够提供强正则化并在有限的医学数据上实现更好的泛化能力。

Practical Implications

  • Edge deployment – 参数少于 50 k,模型可在普通 CPU、低端 GPU,甚至内镜室的专用推理芯片上运行,实现结肠镜检查过程中的实时决策支持。
  • Cost‑effective screening – 医院可以将 AI 集成到现有数字病理工作流中,无需昂贵的 GPU 集群,从而降低 AI 辅助风险分层的门槛。
  • Standardization of pathology – 通过提供客观、可重复的低级别不典型增生读数,该工具可降低病理学家之间的观察者变异,并支持远程病理工作流。
  • Data‑efficient training – 该架构的参数高效性使其适用于标注 WSI 稀缺的其他组织病理学任务,促进在不同癌种中的更广泛应用。
  • Regulatory pathway – 轻量、行为可控的模型(固定正交分类器)更易于验证和审计,有望加速 FDA 或 CE 认证流程。

限制与未来工作

  • 数据集范围 – 本研究使用单机构、策划的低级管状腺瘤队列;需要在多中心数据集上进行外部验证,以确认在不同染色方案和扫描仪模型下的鲁棒性。
  • 二元焦点 – 当前的表述区分“高风险”与“低风险”腺瘤;扩展到多类别分级(例如,高级别异型增生、锯齿状病变)将提升临床实用性。
  • 可解释性 – 虽然提供了注意力图,但更深入的可解释性工具(如概念激活向量)可以帮助临床医生理解 为何 某个切片被标记为高风险。
  • 与临床数据的整合 – 将图像特征与患者元数据(年龄、基因、生活方式)结合,可能进一步提升预测能力并个性化随访间隔。

总体而言,XtraLight‑MedMamba 展示了巧妙的架构选择如何在医学影像中实现最先进的性能,同时保持足够轻量以适用于真实世界的部署。

作者

  • Aqsa Sultana
  • Rayan Afsar
  • Ahmed Rahu
  • Surendra P. Singh
  • Brian Shula
  • Brandon Combs
  • Derrick Forchetti
  • Vijayan K. Asari

论文信息

  • arXiv ID: 2602.04819v1
  • Categories: cs.CV, cs.LG
  • Published: 2026年2月4日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……