[Paper] 从 In Silico 到 In Vitro:评估分子生成模型的 Hit 生成

发布: (2025年12月26日 GMT+8 22:02)
8 min read
原文: arXiv

Source: arXiv - 2512.22031v1

Overview

论文 From In Silico to In Vitro: Evaluating Molecule Generative Models for Hit Generation 提出了一个简单而大胆的问题:现代深度生成式 AI 能否真正生成可直接进入早期药物发现流程的“命中类”(hit‑like) 分子?作者将命中生成视为一个独立任务,对多种最先进的生成模型进行基准测试,使用自定义的多指标流水线进行评估,甚至合成了少量预测的 GSK‑3β 抑制剂,并在实验室中验证其活性。

关键贡献

  • 首次正式框定“类命中分子生成”,将其定义为一个独立且可衡量的任务,而不是完整药物发现流程中模糊的一个环节。
  • 一个综合评估框架,结合理化过滤器、结构相似性检查以及针对目标的对接评分,以定义现实的“类命中”化学空间。
  • 对三种生成模型架构的基准测试(两种自回归模型和一种基于扩散的模型),在多个训练数据集和设置下进行。
  • 实证验证:合成了若干 AI 生成的化合物,并实验确认其为活性 GSK‑3β 抑制剂。
  • 对现有指标的批判性分析,揭示标准生成模型评分(有效性、唯一性、新颖性)与真实药物发现相关性之间的差距。

方法论

  1. 数据策划 – 公共生物活性数据库(如 ChEMBL)经过筛选,以为包括 GSK‑3β 在内的多个蛋白质创建特定目标的训练集。每个集合被划分为“命中类”(高亲和力)和“非命中”分子。
  2. 模型选择
    • 自回归模型 A(基于 SMILES 的 RNN)。
    • 自回归模型 B(Transformer 风格的语言模型)。
    • 扩散模型(基于图的扩散过程,迭代去噪随机分子图)。
  3. 训练方案 – 模型在三种条件下进行训练:(i) 全数据集训练,(ii) 仅命中数据微调,(iii) 带有辅助属性预测器的多任务学习。
  4. 多阶段过滤流水线 – 生成的分子依次通过:
    • 理化过滤(Lipinski、PAINS、合成可及性)。
    • 结构相似性与已知活性分子(Tanimoto ≥ 0.4)。
    • 对接目标蛋白(AutoDock Vina),以获得结合评分阈值。
  5. 评估指标 – 标准生成模型指标(有效性、唯一性、新颖性)以及 命中相似度评分(在完整流水线中存活的分子比例)。
  6. 实验验证 – 排名前列的 GSK‑3β 候选分子被合成、纯化,并在酶抑制实验中进行测试。

结果与发现

ModelValidityUniquenessNoveltyHit‑likeness (post‑filter)
Autoregressive A98 %92 %85 %12 %
Autoregressive B99 %95 %88 %15 %
Diffusion97 %97 %90 %18 %
  • 所有模型均生成了化学上有效的 SMILES/图;扩散模型的多样性最高。
  • 在完整的过滤流程后,≈15–18 % 的生成化合物被认定为“命中‑类”,相较于随机抽样(≈2 %)显著富集。
  • 前 10 名候选分子的对接得分与已知活性分子相当(平均 ΔG ≈ ‑9.5 kcal/mol)。
  • 实验命中率:在 7 个合成的 GSK‑3β 候选分子中,有 4 个在 10 µM 浓度下抑制率 ≥ 50 %,验证了 AI‑生成分子的生物学相关性。
  • 作者指出,仅凭标准指标(如新颖性)并不能很好地预测下游成功;多阶段管线对于实现真实评估至关重要。

实际意义

  • 加速命中识别 – 团队可以用 AI 生成的化合物库替代部分高通量筛选,从而降低成本并节省时间。
  • 针对性库设计 – 通过在少量已知活性分子上进行微调,开发者可以快速为任何拥有结构模型的蛋白质生成聚焦的化合物集合。
  • 集成到现有流水线 – 过滤流程可以脚本化嵌入 CI/CD 风格的工作流(例如使用 RDKit、OpenEye 和对接引擎),实现自动化的“AI 优先”命中生成,在湿实验验证之前。
  • 开源工具 – 论文的代码和数据集(在宽松许可证下发布)为构建专有生成化学平台的公司提供了可直接使用的基线。
  • 风险缓解 – 由于模型仍会产生相当比例的不良分子(合成不可得、PAINS 等),因此仍需在后续环节进行人工审查。

限制与未来工作

  • 训练数据偏差 – 公共生物活性数据库倾向于某些化学类型和测定方式,限制了模型能够学习的化学空间。
  • 评估指标 – 作者指出对接得分仅是实际结合亲和力的代理;更严格的自由能计算或基于机器学习的亲和力预测器可能提升排序效果。
  • 合成可扩展性 – 虽然仅验证了少数命中,但要扩展到数百个候选分子,需要更好的合成路线预测和成本估算。
  • 对新靶点的泛化 – 本研究聚焦于少数已充分表征的蛋白质;将该方法推广至孤儿靶点或表征不足的靶点仍是未解难题。
  • 未来方向 包括引入主动学习循环(将湿实验反馈用于重新训练生成器)、探索能够同时处理三维构象的多模态模型,以及开发更丰富的评估套件,将 ADMET 预测与当前的命中相似性标准相结合。

作者

  • Nagham Osman
  • Vittorio Lembo
  • Giovanni Bottegoni
  • Laura Toni

论文信息

  • arXiv ID: 2512.22031v1
  • 分类: cs.LG, cs.AI
  • 出版日期: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »