[Paper] 几何感知状态空间模型:全切片图像表示的新范式

发布: (2026年5月7日 GMT+8 01:33)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.05164v1

概述

本文提出了几何感知状态空间模型(BatMIL),这是一种用于表示全切片组织病理图像(WSI)的新方法。通过在欧氏空间和双曲空间中同时嵌入补丁特征,并使用线性时间状态空间序列模型进行处理,作者实现了更准确的切片级预测,同时保持对千兆像素数据的计算可处理性。

关键贡献

  • Dual‑geometry embedding: 引入一种混合欧几里得‑双曲表示,能够捕获局部细胞细节(欧几里得)和层次组织(双曲)。
  • Linear‑complexity sequence encoder: 利用结构化状态空间(S4)模型,以 O(N) 的时间和内存对数千个 patch 嵌入进行编码,其中 N 为 patch 数量。
  • Chunk‑level Mixture‑of‑Experts (MoE): 动态将 patch 分组为区域性 “chunk”,并将每个 chunk 路由到专门的专家子网络,从而提升表达能力并减少冗余计算。
  • Comprehensive evaluation:七个 WSI 数据集(覆盖六种癌症类型)上对 BatMIL 进行基准测试,始终优于最先进的多实例学习(MIL)基线。
  • Open‑source implementation: 提供代码和预训练模型,便于复现和下游集成。

方法论

  1. 补丁提取与初始嵌入 – 将 WSI 划分为数千个不重叠的补丁;每个补丁通过标准的 CNN 主干(例如 ResNet‑50)得到特征向量。
  2. 双空间投影 – 同一向量被投射到:
    • 欧氏空间 用于细粒度形态学,使用线性层。
    • 双曲空间(Poincaré 球)用于层级关系,使用 Möbius 线性映射。
  3. 使用 S4 的序列建模 – 双空间嵌入的有序列表被送入 S4 层,这是一种状态空间模型,能够以线性计算成本近似长程依赖,区别于二次复杂度的 Transformers。
  4. 块级 MoE 路由 – 将序列划分为连续的“块”(例如 64 个补丁)。轻量级门控网络预测一组专家子网络的分布;每个块由最相关的专家处理,从而实现区域特定的特征细化。
  5. 幻灯片级聚合与分类 – 经过专家细化的输出进行(注意力加权)池化,生成幻灯片级表示,最终通过全连接头进行分类。

整个流水线端到端可微分,实现了双嵌入、S4 编码器和 MoE 路由的联合学习。

结果与发现

数据集 (癌症)基线 MIL (例如, CLAM)BatMIL (我们的)相对 ↑ 准确率
Camelyon16 (乳腺)84.2 %89.7 %+5.5 %
TCGA‑LUAD (肺)78.1 %83.4 %+5.3 %
TCGA‑COAD (结肠)81.5 %86.9 %+5.4 %
… (另外 4 项)
  • 速度: 在单个 RTX 3090 上处理一张 100 k‑patch 切片约需 ~0.9 s,比具有可比准确率的 Transformer‑基 MIL 模型快约 2 倍。
  • 消融实验: 移除双曲分支会使准确率下降约 ~3 %;将 S4 替换为普通 LSTM 会使性能下降约 ~2 %,并将运行时间增加约 1.8×。
  • 可解释性: 从双曲嵌入得到的注意力图突出宏观结构区域(例如肿瘤巢),而欧氏注意力则关注细胞层面的细节,提供了更丰富的视觉解释。

实际意义

  • 可扩展的病理学流水线: 开发者可以将 BatMIL 集成到数字病理平台中,实现对整片切片的诊断,而无需占用大量 GPU 内存。
  • 为病理学家提供更好的分诊: 更高精度的预测和区域级注意力图可以优先处理需要专家审阅的切片,从而减轻工作负担。
  • 可迁移到其他千兆像素领域: 双几何 + S4 + MoE 的组合方案同样适用于卫星影像、大规模文档分析或任何需要聚合数百万局部特征的任务。
  • 适用于边缘部署: 线性时间的 S4 推理使其能够在普通 GPU 甚至高端 CPU 服务器上运行,开启了云端或本地病理服务的可能性。

限制与未来工作

  • 双曲曲率调优: 当前实现使用固定曲率;对每个数据集学习曲率可能进一步提升层次建模。
  • 块粒度敏感性: 性能随块大小变化;基于组织异质性的自适应分块策略留待未来探索。
  • 模态测试受限: 实验聚焦于 H&E‑染色切片;将其扩展到多重免疫荧光或放射学‑病理多模态数据仍是一个开放方向。

总体而言,BatMIL 表明几何感知表示结合高效序列建模能够推动计算病理学向更准确、可解释且可扩展的解决方案发展。

作者

  • Enhui Chai
  • Sicheng Chen
  • Tianyi Zhang
  • Chad Wong
  • Kecheng Huang
  • Zeyu Liu
  • Fei Xia

论文信息

  • arXiv ID: 2605.05164v1
  • 分类: cs.CV, cs.AI
  • 出版日期: 2026年5月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »