[Paper] LSP-DETR: 高效且可扩展的全切片图像细胞核分割
Source: arXiv - 2601.03163v1
概述
本文提出了 LSP‑DETR,一种用于千兆像素全切片图像(WSIs)中细胞核实例分割的全端到端框架。通过将轻量级 Transformer 与星形凸多边形表示相结合,作者实现了快速、可扩展的分割,摆脱了以往方法中受限的块级处理和繁重的后处理。
关键贡献
- 线性复杂度的 Transformer,能够摄取比传统 DETR‑style 模型更大的图像块,保持计算量大致恒定。
- 星形凸多边形编码 每个细胞核,实现紧凑且富有表现力的形状描述。
- 径向距离损失 能自然分离重叠的细胞核,省去显式的重叠标注或手工后处理步骤。
- 完全端到端训练(无单独的检测 → 分割流水线),简化部署。
- 业界领先的速度/精度权衡:>5× 更快于次快方法,同时在基准数据集(PanNuke、MoNuSeg)上匹配或超越分割质量。
方法论
-
输入处理 – 与将 WSIs 切成小块不同,LSP‑DETR 处理相对较大的裁剪(例如 1024 × 1024 px),使用注意力通过线性复杂度核(如 Performer 或 Linformer)近似的 transformer 编码器。这在高分辨率输入下仍能保持低内存使用。
-
对象表示 – 每个细胞核被建模为 星形凸多边形,由从中心点到多边形顶点的一组径向距离定义。该表示能够以远少于完整掩码的参数捕获不规则的核形状。
-
预测头 – transformer 解码器输出固定大小的查询集合。对于每个查询,网络预测:
- 置信分数,
- 中心坐标,和
- 径向距离向量(每个预定义角度对应一个距离)。
-
损失函数 – 径向距离损失 将对预测半径的 L1 项与一种新颖的重叠感知项相结合,后者惩罚相邻细胞核径向距离顺序不一致的情况。由于损失是按半径定义的,模型能够在没有显式重叠掩码的情况下学习收缩重叠区域。
-
训练与推理 – 系统在标准细胞核数据集上端到端训练。推理时,预测的多边形即时栅格化为二值掩码,生成最终的分割图。无需额外的聚类、分水岭或形态学后处理。
结果与发现
| 数据集 | mAP (seg) | 推理时间(每 1024 × 1024 裁剪) | 相比第二名的加速比 |
|---|---|---|---|
| PanNuke | 0.71 | 45 ms | 5.3× |
| MoNuSeg | 0.78 | 38 ms | 5.1× |
- 准确性:LSP‑DETR 的实例分割得分与已发表的最佳成绩持平或更高,尤其在重叠核细胞的挑战性场景中表现突出。
- 效率:线性复杂度的注意力机制降低了 GPU 内存占用,使得可以使用更大的裁剪尺寸并减少前向传播次数。
- 泛化能力:在一种组织类型上训练的模型能够很好地迁移到未见过的器官,表明特征学习具有鲁棒性。
实际意义
- Accelerated pathology pipelines – 病理实验室可以在全片扫描上几乎实时地进行细胞核分割,从而实现快速的下游分析(例如,肿瘤分级、生物标志物定量)。
- Simplified deployment – 单阶段、端到端的特性意味着组件更少(无需拼接补丁、无需后处理脚本),从而降低工程开销和潜在的错误来源。
- Edge‑friendly inference – 由于 Transformer 的注意力计算呈线性扩展,模型可以在普通 GPU 或甚至高端 CPU 上运行,为本地部署或成本效益高的云服务提供可能。
- Extensible to other instance‑segmentation tasks – 星形凸多边形 + 径向损失的范式可以适用于分割其他小而密集的目标(例如,显微镜下的细胞、材料科学中的颗粒)。
限制与未来工作
- 形状偏差 – Star‑convex 多边形假设核大致凸形;高度凹陷或多叶结构可能表现不足。
- 固定角分辨率 – 径向射线的数量是超参数;射线太少限制形状保真度,太多则增加预测开销。
- 训练数据依赖 – 虽然泛化能力强,但极端领域转移(例如不同染色方案)仍需微调。
- 未来方向 – 作者建议探索自适应射线采样、在未标记的 WSI 上进行自监督预训练,以及将框架扩展到 3‑D 组织学体积。
作者
- Matěj Pekár
- Vít Musil
- Rudolf Nenutil
- Petr Holub
- Tomáš Brázdil
论文信息
- arXiv ID: 2601.03163v1
- 分类: cs.CV
- 发布日期: 2026年1月6日
- PDF: 下载 PDF