利用全切片难度的多实例学习提升前列腺癌分级

发布: 13小时前 (2026年3月11日 GMT+8 01:49)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.09953v1

概述

本文解决了计算病理学中的一个常见痛点：全切片图像（WSI）通常由专家病理学家标注，但对切片的解读难度差异很大。通过从专家与非专家之间的分歧中量化“切片难度”，作者展示了如何使用于前列腺癌 Gleason 分级的多实例学习（MIL）模型更加稳健——尤其是在最困难的高等级病例上。

Whole Slide Difficulty (WSD) metric – 一个简单的、基于数据的评分，来源于专家与非专家标注不一致的情况。
利用 WSD 的两种训练策略：
1. Multi‑task learning – 模型同时预测癌症分级以及切片难度。
2. Weighted loss – 分类损失按 WSD 加权，使更难的切片在训练中拥有更大的影响力。
在前列腺癌 WSIs 上进行的大规模实证验证，展示了在多种 MIL 主干（如 Attention‑MIL、CLAM）和特征编码器（ResNet‑50、EfficientNet）上的一致性能提升。
针对高 Gleason 级别的专注改进，这些级别在临床上最为关键，且历来是 AI 模型最难正确分类的。

数据与难度标注
- 一套前列腺全切片图像（WSI）由资深病理学家（真值）和初级病理学家进行标注。
- 对每张切片，WSD 分数 计算为二元不一致（0 = 一致，1 = 不一致），或在涉及多个非专家时使用归一化计数。
MIL 框架
- 将 WSI 切分为成千上万的图像块（实例）。
- 预训练的 CNN 为每个块提取特征向量。
- MIL 聚合器（例如基于注意力的池化）生成切片级表示，随后输入分类器。
整合 WSD
- 多任务：网络有两个头——一个用于 Gleason 等级预测，另一个用于二元难度预测。总损失为两任务的加权和，促使共享的主干网络学习对两者都有信息的特征。
- 加权损失：Gleason 分级的标准交叉熵损失乘以与切片 WSD 成比例的因子（更难的切片 → 更大的权重）。
训练与评估
- 实验采用 5 折交叉验证。
- 指标：宏平均 F1、加权准确率以及每个等级的召回率，特别关注 4/5 级（高等级癌症）。

设置	Macro‑F1 ↑	Weighted Acc ↑	Grade 4/5 Recall ↑
基线 MIL（no WSD）	0.71	0.84	0.62
+ 多任务 WSD	0.75 (+5.6%)	0.88 (+4.8%)	0.71 (+14.5%)
+ 加权损失 WSD	0.74 (+4.2%)	0.87 (+3.6%)	0.68 (+9.7%)

结论：通过将“难以诊断”的切片转化为学习信号而非干扰因素，这项工作为基于 MIL 的病理模型提供了一个实用、低成本的升级方案——开发者可以立即开始尝试。