【论文】Retrieval-Augmented Foundation Models 用于 Matched Molecular Pair Transformations,以重现 Medicinal Chemistry Intuition
发布: (2026年2月19日 GMT+8 02:27)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16684v1
概述
本文解决了计算机辅助药物设计中的一个核心挑战:在对先导化合物进行迭代时,自动提出药物化学家会进行的真实化学修饰。通过在数百万 matched molecular pair transformations (MMPTs) 上训练大型“基础”模型,并结合检索系统,作者实现了可控且多样的类似分子生成,使其符合人类直觉。
关键贡献
- 变量到变量的表述 – 将模拟生成重新构架为“给定源分子,生成目标分子”,而不是把整个分子视为单一的 token。
- 大规模基础模型 – 在海量的 MMPT 语料库上进行预训练,学习药物化学编辑的统计模式。
- 基于提示的可控性 – 引入简单的文本或结构提示(例如 “添加一个甲基基团”、 “将苯基替换为吡啶”),引导模型朝向期望的转化模式。
- 检索增强生成 (MMPT‑RAG) – 集成对已知类似物参考库的外部相似性搜索,提供上下文线索以提升相关性和项目特异性。
- 全面评估 – 在公共化学数据集和真实专利集合上展示了多样性、新颖性和保真度的提升。
方法论
- 数据准备 – 作者从公开的化学数据库和专利文献中挖掘,提取匹配分子对:两个分子仅在单个、明确定义的化学编辑上不同(例如,官能团置换)。每对用源 SMILES 字符串和目标 SMILES 字符串表示。
- 模型架构 – 基于 Transformer 的编码器‑解码器被训练以将源 SMILES 映射到目标 SMILES。由于任务是变量到变量的映射,模型学习关注差异而不是记忆完整分子的词表。
- 提示机制 – 用户可以在源 SMILES 前加上简短的“编辑提示”(例如
+CH3、replace=Cl→F)。模型将其视为额外的条件 token,偏向解码器执行所请求的转化。 - 检索增强生成 – 在解码之前,进行相似性搜索(基于指纹索引的 FAISS)从特定领域库中获取 k 个最相关的类似分子。它们的 SMILES 被拼接到提示中,为模型提供关于化学家先前如何修改相似骨架的额外上下文。
- 训练与微调 – 基础模型在完整的 MMPT 语料库上进行预训练,然后可在更窄的项目特定集合(例如单一治疗领域)上进行微调,以捕捉细微的系列层面趋势。
结果与发现
| 指标 | 基线(全分子模型) | MMPT‑RAG(本工作) |
|---|---|---|
| 多样性(基于 Tanimoto) | 0.31 | 0.48 |
| 新颖性(训练中未见) | 0.62 | 0.78 |
| 编辑准确率(正确的转化类型) | 0.55 | 0.71 |
| 人工评估(化学家对真实性的评分) | 3.1 / 5 | 4.2 / 5 |
- 多样性和新颖性提升,因为模型学习了重新组合编辑,而不是直接复制完整分子。
- 提示遵循度在编辑被明确指定时可达 >80 %,表明简单的文本线索足以实现细粒度控制。
- 在专利重构情景下(给定一个主骨架,生成可能出现在新专利中的类似物),MMPT‑RAG 能够恢复 >70 % 的实际报告类似物,优于之前的基于规则和图生成的基线方法。
实际意义
- Lead‑optimization pipelines – 将 MMPT‑RAG 集成作为“建议下一个类似物”模块。化学家可以输入骨架和期望的编辑(例如,提高脂溶性),并获得一份按排名的合成上可行的候选分子列表。
- Project‑specific knowledge transfer – 将公司的内部化合物库导入检索索引后,模型会自动遵循专有的 SAR 趋势,降低提出化学上不相关修改的风险。
- Rapid SAR hypothesis testing – 开发者可以使用不同的提示批量生成,然后将输出输入下游属性预测模型(ADMET、对接),用于高通量虚拟筛选。
- Low‑code integration – 提示接口支持纯 SMILES 字符串,便于在 REST API 或 Jupyter Notebook 中封装,无需深度机器学习专业知识。
限制与未来工作
- 合成可行性未得到保证 – 虽然模型学习了常见的药物化学编辑,但并未显式强制执行反应层面的约束;需要与逆合成引擎结合才能提供可直接用于生产的建议。
- 依赖检索质量 – RAG 组件的性能取决于外部库的相关性;若数据库策划不佳或范围过窄,可能导致生成结果产生偏差。
- 提示的可扩展性 – 非常复杂的多步转化(例如 “先添加杂环再氧化”)仍然对当前的单提示设计构成挑战。
- 未来方向 包括:
- 与反应预测模型联合训练,以嵌入合成路线。
- 对多步设计采用层次化提示。
- 将框架扩展到蛋白靶向生成任务(例如基于结合位点信息的骨架跳跃)。
作者
- Bo Pan
- Peter Zhiping Zhang
- Hao‑Wei Pang
- Alex Zhu
- Xiang Yu
- Liying Zhang
- Liang Zhao
论文信息
- arXiv ID: 2602.16684v1
- 分类: cs.LG
- 发表时间: 2026年2月18日
- PDF: 下载 PDF