【论文】Retrieval-Augmented Foundation Models 用于 Matched Molecular Pair Transformations，以重现 Medicinal Chemistry Intuition

发布: 3天前 (2026年2月19日 GMT+8 02:27)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16684v1

概述

本文解决了计算机辅助药物设计中的一个核心挑战：在对先导化合物进行迭代时，自动提出药物化学家会进行的真实化学修饰。通过在数百万 matched molecular pair transformations (MMPTs) 上训练大型“基础”模型，并结合检索系统，作者实现了可控且多样的类似分子生成，使其符合人类直觉。

关键贡献

变量到变量的表述 – 将模拟生成重新构架为“给定源分子，生成目标分子”，而不是把整个分子视为单一的 token。
大规模基础模型 – 在海量的 MMPT 语料库上进行预训练，学习药物化学编辑的统计模式。
基于提示的可控性 – 引入简单的文本或结构提示（例如 “添加一个甲基基团”、 “将苯基替换为吡啶”），引导模型朝向期望的转化模式。
检索增强生成 (MMPT‑RAG) – 集成对已知类似物参考库的外部相似性搜索，提供上下文线索以提升相关性和项目特异性。
全面评估 – 在公共化学数据集和真实专利集合上展示了多样性、新颖性和保真度的提升。

方法论

数据准备 – 作者从公开的化学数据库和专利文献中挖掘，提取匹配分子对：两个分子仅在单个、明确定义的化学编辑上不同（例如，官能团置换）。每对用源 SMILES 字符串和目标 SMILES 字符串表示。
模型架构 – 基于 Transformer 的编码器‑解码器被训练以将源 SMILES 映射到目标 SMILES。由于任务是变量到变量的映射，模型学习关注差异而不是记忆完整分子的词表。
提示机制 – 用户可以在源 SMILES 前加上简短的“编辑提示”（例如 +CH3、replace=Cl→F）。模型将其视为额外的条件 token，偏向解码器执行所请求的转化。
检索增强生成 – 在解码之前，进行相似性搜索（基于指纹索引的 FAISS）从特定领域库中获取 k 个最相关的类似分子。它们的 SMILES 被拼接到提示中，为模型提供关于化学家先前如何修改相似骨架的额外上下文。
训练与微调 – 基础模型在完整的 MMPT 语料库上进行预训练，然后可在更窄的项目特定集合（例如单一治疗领域）上进行微调，以捕捉细微的系列层面趋势。

结果与发现

指标	基线（全分子模型）	MMPT‑RAG（本工作）
多样性（基于 Tanimoto）	0.31	0.48
新颖性（训练中未见）	0.62	0.78
编辑准确率（正确的转化类型）	0.55	0.71
人工评估（化学家对真实性的评分）	3.1 / 5	4.2 / 5

多样性和新颖性提升，因为模型学习了重新组合编辑，而不是直接复制完整分子。
提示遵循度在编辑被明确指定时可达 >80 %，表明简单的文本线索足以实现细粒度控制。
在专利重构情景下（给定一个主骨架，生成可能出现在新专利中的类似物），MMPT‑RAG 能够恢复 >70 % 的实际报告类似物，优于之前的基于规则和图生成的基线方法。

实际意义

Lead‑optimization pipelines – 将 MMPT‑RAG 集成作为“建议下一个类似物”模块。化学家可以输入骨架和期望的编辑（例如，提高脂溶性），并获得一份按排名的合成上可行的候选分子列表。
Project‑specific knowledge transfer – 将公司的内部化合物库导入检索索引后，模型会自动遵循专有的 SAR 趋势，降低提出化学上不相关修改的风险。
Rapid SAR hypothesis testing – 开发者可以使用不同的提示批量生成，然后将输出输入下游属性预测模型（ADMET、对接），用于高通量虚拟筛选。
Low‑code integration – 提示接口支持纯 SMILES 字符串，便于在 REST API 或 Jupyter Notebook 中封装，无需深度机器学习专业知识。

限制与未来工作

合成可行性未得到保证 – 虽然模型学习了常见的药物化学编辑，但并未显式强制执行反应层面的约束；需要与逆合成引擎结合才能提供可直接用于生产的建议。
依赖检索质量 – RAG 组件的性能取决于外部库的相关性；若数据库策划不佳或范围过窄，可能导致生成结果产生偏差。
提示的可扩展性 – 非常复杂的多步转化（例如 “先添加杂环再氧化”）仍然对当前的单提示设计构成挑战。
未来方向 包括：
1. 与反应预测模型联合训练，以嵌入合成路线。
2. 对多步设计采用层次化提示。
3. 将框架扩展到蛋白靶向生成任务（例如基于结合位点信息的骨架跳跃）。

作者

Bo Pan
Peter Zhiping Zhang
Hao‑Wei Pang
Alex Zhu
Xiang Yu
Liying Zhang
Liang Zhao

论文信息

arXiv ID: 2602.16684v1
分类: cs.LG
发表时间: 2026年2月18日
PDF: 下载 PDF

【论文】Retrieval-Augmented Foundation Models 用于 Matched Molecular Pair Transformations，以重现 Medicinal Chemistry Intuition

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 多轮人机协作与用户指定需求