- 简介高效的分子构象平衡采样仍然是计算化学和统计推断领域的一个核心挑战。传统的采样方法,如分子动力学或马尔可夫链蒙特卡洛方法,在本质上缺乏摊销能力;也就是说,对每个感兴趣的系统都必须完全重新支付计算成本。生成模型的广泛应用激发了人们通过学习采样算法来克服这一限制的兴趣。尽管在单一系统上训练时,学习型采样器的表现可以媲美传统方法,但迄今为止,它们在不同系统之间的迁移能力仍然有限。我们证明,通过引入 Prose,深度学习可以用于设计可扩展且具有迁移能力的采样器。Prose 是一个拥有 2.8 亿参数、适用于全原子结构的可迁移归一化流模型,它在一个包含最多 8 个残基长度的肽类分子动力学轨迹数据集上进行了训练。Prose 可以对任意肽类系统进行零样本、不相关提案采样,在保持归一化流高效似然评估能力的同时,实现了此前难以实现的跨序列长度的迁移能力。通过广泛的实证评估,我们展示了 Prose 作为多种采样算法提案的有效性,并设计了一种简单的基于重要性采样的微调流程,使其在未见过的四肽系统上的表现优于诸如序列蒙特卡洛等现有方法。为了进一步推动摊销采样方法和微调目标的研究,我们开源了 Prose 的代码库、模型权重以及训练数据集。
-
- 图表
- 解决问题论文试图解决分子构象的高效平衡采样问题,这是计算化学和统计推断中的核心挑战。传统方法如分子动力学或马尔可夫链蒙特卡洛缺乏摊销能力,导致每次采样都需要完全支付计算成本。该问题具有重要现实意义,是一个长期存在的问题。
- 关键思路论文提出了一种基于深度学习的可扩展、可迁移采样器Prose,通过引入一个包含2.8亿参数的全原子可迁移归一化流模型,解决了采样方法在不同系统间迁移能力有限的问题。Prose能够在零样本条件下为任意肽系统生成无关联的建议样本,同时保留归一化流的高效似然评估能力。
- 其它亮点1. Prose是首个实现跨序列长度迁移能力的模型,解决了传统方法和现有生成模型无法克服的问题。 2. 通过重要性采样微调,Prose在未见过的四肽系统上表现优于现有的顺序蒙特卡洛方法。 3. 论文使用了肽分子动力学轨迹数据集进行训练,涵盖最多8个残基长度的肽。 4. 作者开源了Prose代码库、模型权重和训练数据集,推动后续研究。
- 1. Normalizing Flows for Probabilistic Modeling and Inference 2. Deep Generative Models for Molecular Conformation Sampling 3. Amortized Sampling with Variational Inference 4. Markov Chain Monte Carlo meets Deep Learning 5. Transfer Learning in Computational Chemistry and Drug Discovery
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流