[Paper] 通过多尺度结构生成的蛋白质自回归建模

发布: (2026年2月5日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.04883v1

Overview

本文介绍了 Protein Autoregressive Modeling (PAR),这是一种新颖的多尺度框架,能够以粗到细的方式生成蛋白质主链,类似于从粗糙形状雕刻到细致特征的雕像。通过结合层次下采样、自回归 Transformer 和基于流的解码器,PAR 能够在 无需任何任务特定微调 的情况下生成逼真的蛋白质结构,为快速、即时的蛋白质设计打开了大门。

关键贡献

  • 首个用于蛋白质主链生成的多尺度自回归架构 – 从低分辨率拓扑逐步构建到原子细节的结构。
  • 三组件流水线
    1. 蛋白质坐标的多尺度下采样,以创建层次化表示。
    2. 自回归 Transformer,摄取这些表示并为下一个尺度输出条件嵌入。
    3. 基于流的解码器,将嵌入转换为实际的主链原子位置。
  • 通过 噪声上下文学习调度采样 实现 曝光偏差缓解,显著提升生成保真度。
  • 零-shot 条件生成(人类提示的基序、支架),无需额外训练。
  • 在无条件生成基准上表现强劲,并且随着模型规模增长呈现出有利的扩展趋势。

方法论

  1. Hierarchical Down‑Sampling – 蛋白质的 3D 主链被反复粗化(例如,通过对残基进行聚类),生成金字塔式的表示(scale‑0:完整原子细节,scale‑N:非常粗糙的拓扑)。
  2. Autoregressive Transformer – 训练模型在 已生成的所有更粗尺度的条件下 预测下一个更细尺度的嵌入。这类似于自回归语言模型在已知前文的情况下预测下一个词,但这里的“词”是不同分辨率的结构片段。
  3. Flow‑Based Decoder – 正规化流网络将条件嵌入映射到下一尺度主链原子坐标的分布上。由于流是可逆的,它们提供精确的似然估计并实现高效采样。
  4. Training Tricks to Reduce Exposure Bias:
    • Noisy Context Learning – 在训练期间随机破坏已生成的粗糙上下文,迫使模型对不完美的输入具有鲁棒性。
    • Scheduled Sampling – 随着训练的进行,逐步用模型生成的粗糙输入替代真实的粗糙输入,使训练分布与推理分布保持一致。

整个系统是端到端可微分的,允许 transformer 和 flow 解码器在训练过程中共同适应。

结果与发现

指标无条件生成 (PAR)先前的最新技术
可设计性 (TM‑score)0.78 ± 0.040.71 ± 0.05
骨架 RMSD 与原生结构1.9 Å(中位数)2.5 Å
零样本基序支架成功率85 %(≥0.6 TM‑score)62 %
扩展趋势随模型规模(最高 1.5 B 参数)平滑提升质量参数约 300 M 后收益递减

关键要点

  • PAR 学习了 高保真分布 的蛋白质骨架,生成的结构既多样又物理上合理。
  • 曝光偏差修正 将平均 TM‑score 提高约 7 %,相较于朴素的自回归基线。
  • 零样本条件任务(例如 “放置此催化基序并填充其余部分”)在无需额外微调的情况下即可成功,展示了强大的泛化能力。

实际意义

  • 为蛋白质工程师提供快速原型 – 开发者可以使用所需的功能基序查询 PAR,并在几秒钟内获得完整的主链骨架,从而加速设计‑构建‑测试循环。
  • 集成到计算流水线 – 由于 PAR 是纯 Python / PyTorch 模块,可直接嵌入现有的蛋白质设计框架(如 Rosetta、基于 AlphaFold 的流水线)作为主链生成器。
  • 可扩展的云服务 – 粗到细的生成过程天然支持并行,可在无服务器或 GPU 集群部署中使用,满足对延迟的严格要求。
  • 新酶或治疗剂的设计 – 通过提供符合蛋白质层次结构的高质量骨架,PAR 能提升后续任务的效果,如活性位点设计、抗体 CDR 移植或全新纳米材料构建。
  • 教学工具 – 直观的“雕塑”比喻以及可视化中间粗糙结构的能力,使 PAR 成为生物信息学课程的优秀教学辅助。

限制与未来工作

  • Backbone‑only focus – 侧链放置和完整原子级精炼留给下游工具;整合侧链建模可能实现端到端设计。
  • Training data bias – 模型在实验解析的结构上训练,这导致某些折叠(例如 α‑螺旋蛋白)过度代表。稀有拓扑结构可能生成不足。
  • Computational cost at very large scales – 虽然扩展平滑,但训练 >1 B 参数的模型仍需多节点 GPU 集群,限制了小实验室的可及性。
  • Conditional prompts are limited to motif coordinates; 更丰富的语义提示(例如功能描述符、理化约束)仍是未解决的研究方向。

作者建议将 PAR 扩展到 joint sequence‑structure generation,探索 diffusion‑based refinements,以及 benchmarking on functional assays,以闭合计算设计与实验验证之间的循环。

作者

  • Yanru Qu
  • Cheng‑Yen Hsieh
  • Zaixiang Zheng
  • Ge Liu
  • Quanquan Gu

论文信息

  • arXiv ID: 2602.04883v1
  • 分类: cs.LG, cs.AI, q-bio.BM, q-bio.QM
  • 发表日期: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……