[Paper] 对比几何学习解锁统一的基于结构和配体的药物设计

发布: (2026年1月15日 GMT+8 02:45)
8 min read
原文: arXiv

Source: arXiv - 2601.09693v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。)

概述

本文介绍了 ConGLUDe(对比几何学习用于统一计算药物设计),这是一种单一神经模型,可同时从蛋白质结构和配体活性数据中学习。通过将几何蛋白编码器与快速配体编码器相结合,并使用对比目标进行训练,作者展示了一个统一框架,能够预测结合口袋、执行虚拟筛选,甚至“捕捉”目标——全部无需预先定义的口袋注释。

关键贡献

  • Unified architecture:联合处理整蛋白的 3D 几何结构和配体化学信息,消除需要分别使用基于结构和基于配体的流水线的需求。
  • Contrastive geometric learning:将配体嵌入与 (i) 全局蛋白表示以及 (ii) 多个候选结合位点嵌入对齐,实现对口袋无关的训练。
  • Ligand‑conditioned pocket prediction:模型能够在给定配体的情况下预测可能的结合位点,这在现有工具中极少出现。
  • Zero‑shot virtual screening:在基准数据集上实现最先进的性能,且在推理时不需要提供任何口袋信息。
  • Target‑fishing superiority:在一个需要在众多候选蛋白中为配体匹配正确蛋白的挑战性数据集上优于以往方法。
  • Scalable training:在高分辨率蛋白‑配体复合物与大规模生物活性(如类似 ChEMBL)数据集的混合上进行可扩展训练,为药物发现的基础模型奠定基础。

方法论

  1. Protein Encoder – 几何深度学习网络(例如图 transformer)读取蛋白质的完整 3D 坐标,产生:

    • 一个 全局 蛋白质嵌入,
    • 局部 嵌入,用于一组即时生成的候选结合位点(无需预定义口袋)。
  2. Ligand Encoder – 轻量级的消息传递图神经网络将 SMILES 或 3D 配体构象转换为固定大小的向量。

  3. Contrastive Objective – 在训练期间,模型接收已知结合的(蛋白质,配体)对。它最大化配体向量与:

    • 全局蛋白质向量的相似度,以及
    • 候选位点中 正确 结合位点的嵌入的相似度。
      同时,它将不匹配的蛋白质‑配体对的嵌入拉开距离,促使网络学习可区分的、几何感知的表征。
  4. Joint Data Regime – 损失函数同时作用于经过策划的蛋白质‑配体复合结构(高分辨率)和仅包含蛋白质标识符和配体活性的大规模生物活性表。该混合训练使模型能够利用结构数据的丰富性,同时扩展到数百万条活性测量。

  5. Inference Modes

    • Virtual screening(虚拟筛选):仅使用全局蛋白质嵌入,对目标蛋白的配体库进行排序。
    • Target fishing(靶点捕获):使用配体嵌入,对查询配体的蛋白质进行排序。
    • Pocket prediction(口袋预测):给定配体,从候选口袋中选择最匹配的位点。

结果与发现

任务基准指标(数值越高越好)ConGLUDe 与 先前技术
零‑shot 虚拟筛选(无口袋)DUD‑E, LIT‑PCBAROC‑AUC ↑ 5–12 %创下新 SOTA
目标捕获(配体 → 蛋白)GPCR‑Bioactivity setTop‑1 准确率 ↑ 8 %超越 DeepAffinity、GraphDTA
配体条件口袋选择Binding‑MOE datasetRecall@5 ↑ 7 %与口袋特定模型竞争

关键要点:

  • 即使在测试时口袋未知,模型仍保持强劲性能,证明全局蛋白嵌入捕获了足够的结构上下文。
  • 在异构数据上联合训练相较仅在结构或活性数据上训练的模型有显著提升。
  • 对比对齐学习了一个共享的潜在空间,使真正相互作用的蛋白和配体在该空间中彼此靠近,这正是跨任务成功的核心原因。

实际意义

  • 加速命中发现 – 研究人员可以在感兴趣的蛋白上进行一次虚拟筛选,而无需先定义结合口袋,从而节省数周的手动口袋检测时间。
  • 快速再利用 – 目标捕获功能使药物再定位团队能够在一次前向筛选中将配体查询数千种蛋白,便于快速生成假设。
  • 集成流水线 – 企业可以用 ConGLUDe 替代独立的基于结构的对接和基于配体的 QSAR 模块,降低工程开销和数据重复。
  • 基础模型潜力 – 由于该架构可以扩展到大规模生物活性语料库,它可以作为下游任务(如 ADMET 预测、全新配体生成或蛋白‑蛋白相互作用建模)的预训练骨干。
  • 资源效率 – 配体编码器轻量,蛋白编码器在全蛋白图上运行,这意味着推理可以在单个 GPU 上处理数百万化合物的库,轻松融入现有的高通量筛选工作流。

限制与未来工作

  • 依赖高质量的3D结构 – 虽然模型可以使用预测结构(例如 AlphaFold)进行操作,但当输入几何信息噪声较大时,性能会下降。
  • 候选口袋生成 – 目前用于提出位点的启发式方法可能会遗漏隐蔽或高度柔性的口袋;整合动态口袋检测可能提升覆盖率。
  • 可解释性 – 对比潜在空间虽强大但不透明;未来工作可以加入基于注意力的可视化,以解释为何配体匹配到特定位点。
  • 扩展到超大库 – 虽然推理速度快,但在数十亿活性点上进行训练可能需要分布式训练策略和内存高效的图表示。

总体而言,ConGLUDe 标志着朝着单一、多功能模型迈出的重要一步,该模型弥合了结构基和配体基药物设计之间长期存在的鸿沟,为更快速、更一体化的发现流程开辟了新途径。

作者

  • Lisa Schneckenreiter
  • Sohvi Luukkonen
  • Lukas Friedrich
  • Daniel Kuhn
  • Günter Klambauer

论文信息

  • arXiv ID: 2601.09693v1
  • 分类: cs.LG, stat.ML
  • 发表时间: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »