[Paper] ProteinPNet:用于空间蛋白质组学中概念学习的原型部件网络
发布: (2025年12月3日 GMT+8 02:00)
8 min read
原文: arXiv
Source: arXiv - 2512.02983v1
概览
本文提出了 ProteinPNet,一种基于原型的深度学习框架,能够直接从肿瘤微环境(TME)的高维空间蛋白质组学数据中学习可解释的“空间基序”。通过在训练循环中嵌入原型部件网络,模型发现了能够区分肿瘤亚型的生物学意义模式,为黑箱 AI 与精准肿瘤学的可操作洞察之间架起了桥梁。
主要贡献
- 原型驱动的架构:将原型部件网络(最初用于图像分类)扩展至多路复用空间蛋白质组学,实现端到端学习判别性空间原型。
- 忠实的可解释性:不同于事后解释器,ProteinPNet 的原型是模型决策过程的一部分,保证所突出模式真正驱动预测。
- 带有真实标签的合成基准:提供了一个已知真实空间基序的受控数据集,以实现原型恢复的定量评估。
- 肺癌真实数据验证:在大规模空间蛋白质组学队列上应用该方法,发现与免疫浸润和组织模块化相关的原型,且与已知肿瘤亚型相符。
- 基于图和形态学的分析流水线:引入工具可视化并量化贡献于每个原型的细胞空间排列,使结果对生物学家和临床医生友好可读。
方法论
- 数据表示 – 将每个组织切片建模为图:节点对应单个细胞(或斑点),携带高维蛋白表达向量,边缘编码空间邻近性(例如 Delaunay 三角剖分)。
- 特征提取 – 图神经网络(GNN)为每个节点学习潜在嵌入,捕获分子和空间上下文。
- 原型层 – 一组可学习的原型向量位于相同的嵌入空间。对每个节点,网络计算其与所有原型的相似度得分(如余弦距离)。
- 原型激活图 – 与某原型相似度高的节点构成空间“激活图”。模型对这些激活图进行聚合(如最大池化),得到用于下游分类(肿瘤亚型)的全局表示。
- 带原型正则化的监督训练 – 损失函数结合标准交叉熵与正则项,(a) 将原型推向真实数据块(原型覆盖损失),(b) 鼓励激活图稀疏/紧凑(可解释性损失)。
- 评估 – 在合成数据上,将恢复的原型与真实基序通过 IoU 与聚类指标比较;在真实数据上,原型通过可视化检查并与已知生物标记(如 CD8⁺ T 细胞密度)相关联。
结果与发现
- 合成数据:ProteinPNet 能恢复 >90 % 的真实基序(IoU ≈ 0.85),且分类准确率与普通 GNN 相当。
- 肺癌队列:模型在区分主要组织学亚型(腺癌 vs. 鳞状细胞癌)上达到约 84 % 的准确率。
- 生物学意义的原型:
- 原型 A 突出显示肿瘤巢周围的免疫细胞密集簇(高 CD45、CD8),对应“免疫炎症”肿瘤。
- 原型 B 捕获富含成纤维细胞标记(α‑SMA)且免疫细胞稀少的基质区,匹配“沙漠”表型。
- 原型 C 分离出微血管结构(VE‑Cadherin),在不同亚型间表现差异。
- 图层级洞察:网络分析显示原型对应细胞‑细胞相互作用图中的不同社区结构(模块度得分),暗示空间组织本身是一种预测性生物标志物。
实际意义
- 快速生物标志物发现:研究者可在新的空间组学数据上训练 ProteinPNet,自动挖掘候选空间签名,无需手动感兴趣区域标注。
- 面向临床的可解释 AI:由于原型可视化为细胞层级热图,病理学家能够将模型推理与组织学切片对照验证,提升 AI 辅助诊断的信任度。
- 可集成到现有流水线:原型层可替换进已有的基于 GNN 的流水线(例如单细胞 RNA‑seq 空间数据),提供即插即用的可解释性模块。
- 靶向疗法设计:识别出的免疫丰富或基质丰富基序可用于患者分层,指导免疫疗法或抗纤维化策略。
- 监管友好:提供内置、忠实解释的模型更符合新兴的医学 AI 法规,对透明度有明确要求。
局限性与未来工作
- 可扩展性:原型学习增加计算开销;在包含数百万细胞的全片图像上训练可能需要图采样或层次池化。
- 原型数量选择:原型数量是超参数;过少可能遗漏细微模式,过多则削弱可解释性。本文未探索自动化选择策略。
- 跨模态验证:本研究仅针对单一肺癌蛋白质组学平台;将方法推广至多重成像(如 CODEX)或空间转录组学需检验其通用性。
- 因果推断:虽然原型与生物过程相关,但框架本身不建立因果关系;结合扰动数据(如 CRISPR 筛选)可强化机制性论证。
ProteinPNet 证明,基于原型的深度学习能够将空间组学的“黑箱”转化为一套可解释、具生物学依据的模式——这一进展有望加速科研发现和临床决策。
作者
- Louis McConnell
- Jieran Sun
- Theo Maffei
- Raphael Gottardo
- Marianna Rapsomaniki
论文信息
- arXiv ID: 2512.02983v1
- 分类: cs.LG
- 发表时间: 2025 年 12 月 2 日
- PDF: Download PDF