[Paper] 通过多尺度结构生成的蛋白质自回归建模

发布: 4天前 (2026年2月5日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.04883v1

Overview

本文介绍了 Protein Autoregressive Modeling (PAR)，这是一种新颖的多尺度框架，能够以粗到细的方式生成蛋白质主链，类似于从粗糙形状雕刻到细致特征的雕像。通过结合层次下采样、自回归 Transformer 和基于流的解码器，PAR 能够在 无需任何任务特定微调 的情况下生成逼真的蛋白质结构，为快速、即时的蛋白质设计打开了大门。

关键贡献

首个用于蛋白质主链生成的多尺度自回归架构 – 从低分辨率拓扑逐步构建到原子细节的结构。
三组件流水线：
1. 蛋白质坐标的多尺度下采样，以创建层次化表示。
2. 自回归 Transformer，摄取这些表示并为下一个尺度输出条件嵌入。
3. 基于流的解码器，将嵌入转换为实际的主链原子位置。
通过 噪声上下文学习 和 调度采样 实现 曝光偏差缓解，显著提升生成保真度。
零-shot 条件生成（人类提示的基序、支架），无需额外训练。
在无条件生成基准上表现强劲，并且随着模型规模增长呈现出有利的扩展趋势。

方法论

Hierarchical Down‑Sampling – 蛋白质的 3D 主链被反复粗化（例如，通过对残基进行聚类），生成金字塔式的表示（scale‑0：完整原子细节，scale‑N：非常粗糙的拓扑）。
Autoregressive Transformer – 训练模型在 已生成的所有更粗尺度的条件下 预测下一个更细尺度的嵌入。这类似于自回归语言模型在已知前文的情况下预测下一个词，但这里的“词”是不同分辨率的结构片段。
Flow‑Based Decoder – 正规化流网络将条件嵌入映射到下一尺度主链原子坐标的分布上。由于流是可逆的，它们提供精确的似然估计并实现高效采样。
Training Tricks to Reduce Exposure Bias:
- Noisy Context Learning – 在训练期间随机破坏已生成的粗糙上下文，迫使模型对不完美的输入具有鲁棒性。
- Scheduled Sampling – 随着训练的进行，逐步用模型生成的粗糙输入替代真实的粗糙输入，使训练分布与推理分布保持一致。

整个系统是端到端可微分的，允许 transformer 和 flow 解码器在训练过程中共同适应。

结果与发现

指标	无条件生成 (PAR)	先前的最新技术
可设计性 (TM‑score)	0.78 ± 0.04	0.71 ± 0.05
骨架 RMSD 与原生结构	1.9 Å（中位数）	2.5 Å
零样本基序支架成功率	85 %（≥0.6 TM‑score）	62 %
扩展趋势	随模型规模（最高 1.5 B 参数）平滑提升质量	参数约 300 M 后收益递减

关键要点

PAR 学习了 高保真分布 的蛋白质骨架，生成的结构既多样又物理上合理。
曝光偏差修正 将平均 TM‑score 提高约 7 %，相较于朴素的自回归基线。
零样本条件任务（例如 “放置此催化基序并填充其余部分”）在无需额外微调的情况下即可成功，展示了强大的泛化能力。

实际意义

为蛋白质工程师提供快速原型 – 开发者可以使用所需的功能基序查询 PAR，并在几秒钟内获得完整的主链骨架，从而加速设计‑构建‑测试循环。
集成到计算流水线 – 由于 PAR 是纯 Python / PyTorch 模块，可直接嵌入现有的蛋白质设计框架（如 Rosetta、基于 AlphaFold 的流水线）作为主链生成器。
可扩展的云服务 – 粗到细的生成过程天然支持并行，可在无服务器或 GPU 集群部署中使用，满足对延迟的严格要求。
新酶或治疗剂的设计 – 通过提供符合蛋白质层次结构的高质量骨架，PAR 能提升后续任务的效果，如活性位点设计、抗体 CDR 移植或全新纳米材料构建。
教学工具 – 直观的“雕塑”比喻以及可视化中间粗糙结构的能力，使 PAR 成为生物信息学课程的优秀教学辅助。

限制与未来工作

Backbone‑only focus – 侧链放置和完整原子级精炼留给下游工具；整合侧链建模可能实现端到端设计。
Training data bias – 模型在实验解析的结构上训练，这导致某些折叠（例如 α‑螺旋蛋白）过度代表。稀有拓扑结构可能生成不足。
Computational cost at very large scales – 虽然扩展平滑，但训练 >1 B 参数的模型仍需多节点 GPU 集群，限制了小实验室的可及性。
Conditional prompts are limited to motif coordinates; 更丰富的语义提示（例如功能描述符、理化约束）仍是未解决的研究方向。

作者建议将 PAR 扩展到 joint sequence‑structure generation，探索 diffusion‑based refinements，以及 benchmarking on functional assays，以闭合计算设计与实验验证之间的循环。

作者

Yanru Qu
Cheng‑Yen Hsieh
Zaixiang Zheng
Ge Liu
Quanquan Gu

论文信息

arXiv ID: 2602.04883v1
分类: cs.LG, cs.AI, q-bio.BM, q-bio.QM
发表日期: 2026年2月4日
PDF: 下载 PDF

[Paper] 通过多尺度结构生成的蛋白质自回归建模

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同