【论文】Retrieval-Augmented Foundation Models 用于 Matched Molecular Pair Transformations,以重现 Medicinal Chemistry Intuition

发布: (2026年2月19日 GMT+8 02:27)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16684v1

概述

本文解决了计算机辅助药物设计中的一个核心挑战:在对先导化合物进行迭代时,自动提出药物化学家会进行的真实化学修饰。通过在数百万 matched molecular pair transformations (MMPTs) 上训练大型“基础”模型,并结合检索系统,作者实现了可控且多样的类似分子生成,使其符合人类直觉。

关键贡献

  • 变量到变量的表述 – 将模拟生成重新构架为“给定源分子,生成目标分子”,而不是把整个分子视为单一的 token。
  • 大规模基础模型 – 在海量的 MMPT 语料库上进行预训练,学习药物化学编辑的统计模式。
  • 基于提示的可控性 – 引入简单的文本或结构提示(例如 “添加一个甲基基团”、 “将苯基替换为吡啶”),引导模型朝向期望的转化模式。
  • 检索增强生成 (MMPT‑RAG) – 集成对已知类似物参考库的外部相似性搜索,提供上下文线索以提升相关性和项目特异性。
  • 全面评估 – 在公共化学数据集和真实专利集合上展示了多样性、新颖性和保真度的提升。

方法论

  1. 数据准备 – 作者从公开的化学数据库和专利文献中挖掘,提取匹配分子对:两个分子仅在单个、明确定义的化学编辑上不同(例如,官能团置换)。每对用 SMILES 字符串和目标 SMILES 字符串表示。
  2. 模型架构 – 基于 Transformer 的编码器‑解码器被训练以将源 SMILES 映射到目标 SMILES。由于任务是变量到变量的映射,模型学习关注差异而不是记忆完整分子的词表。
  3. 提示机制 – 用户可以在源 SMILES 前加上简短的“编辑提示”(例如 +CH3replace=Cl→F)。模型将其视为额外的条件 token,偏向解码器执行所请求的转化。
  4. 检索增强生成 – 在解码之前,进行相似性搜索(基于指纹索引的 FAISS)从特定领域库中获取 k 个最相关的类似分子。它们的 SMILES 被拼接到提示中,为模型提供关于化学家先前如何修改相似骨架的额外上下文。
  5. 训练与微调 – 基础模型在完整的 MMPT 语料库上进行预训练,然后可在更窄的项目特定集合(例如单一治疗领域)上进行微调,以捕捉细微的系列层面趋势。

结果与发现

指标基线(全分子模型)MMPT‑RAG(本工作)
多样性(基于 Tanimoto)0.310.48
新颖性(训练中未见)0.620.78
编辑准确率(正确的转化类型)0.550.71
人工评估(化学家对真实性的评分)3.1 / 54.2 / 5
  • 多样性和新颖性提升,因为模型学习了重新组合编辑,而不是直接复制完整分子。
  • 提示遵循度在编辑被明确指定时可达 >80 %,表明简单的文本线索足以实现细粒度控制。
  • 专利重构情景下(给定一个主骨架,生成可能出现在新专利中的类似物),MMPT‑RAG 能够恢复 >70 % 的实际报告类似物,优于之前的基于规则和图生成的基线方法。

实际意义

  • Lead‑optimization pipelines – 将 MMPT‑RAG 集成作为“建议下一个类似物”模块。化学家可以输入骨架和期望的编辑(例如,提高脂溶性),并获得一份按排名的合成上可行的候选分子列表。
  • Project‑specific knowledge transfer – 将公司的内部化合物库导入检索索引后,模型会自动遵循专有的 SAR 趋势,降低提出化学上不相关修改的风险。
  • Rapid SAR hypothesis testing – 开发者可以使用不同的提示批量生成,然后将输出输入下游属性预测模型(ADMET、对接),用于高通量虚拟筛选。
  • Low‑code integration – 提示接口支持纯 SMILES 字符串,便于在 REST API 或 Jupyter Notebook 中封装,无需深度机器学习专业知识。

限制与未来工作

  • 合成可行性未得到保证 – 虽然模型学习了常见的药物化学编辑,但并未显式强制执行反应层面的约束;需要与逆合成引擎结合才能提供可直接用于生产的建议。
  • 依赖检索质量 – RAG 组件的性能取决于外部库的相关性;若数据库策划不佳或范围过窄,可能导致生成结果产生偏差。
  • 提示的可扩展性 – 非常复杂的多步转化(例如 “先添加杂环再氧化”)仍然对当前的单提示设计构成挑战。
  • 未来方向 包括:
    1. 与反应预测模型联合训练,以嵌入合成路线。
    2. 对多步设计采用层次化提示。
    3. 将框架扩展到蛋白靶向生成任务(例如基于结合位点信息的骨架跳跃)。

作者

  • Bo Pan
  • Peter Zhiping Zhang
  • Hao‑Wei Pang
  • Alex Zhu
  • Xiang Yu
  • Liying Zhang
  • Liang Zhao

论文信息

  • arXiv ID: 2602.16684v1
  • 分类: cs.LG
  • 发表时间: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »