本文介绍的是NeurIPS 2021上一篇来自MIT的论文。在化学信息学和药物发现领域中,从分子图中预测分子的三维构象集具有关键的作用,但现有的生成模型存在严重的问题,这包括缺乏对重要分子几何元素的建模,优化阶段容易出现累积误差,需要基于经典力场或计算代价昂贵的方法进行结构微调。作者团队提出GEOMOL模型,一种端到端、非自回归和SE(3)不变的机器学习方法来生成低能分子三维构象的分布。利用消息传递神经网络(MPNN)捕捉局部和全局信息的能力,我们能预测局部原子的3D结构和扭转角,这样的局部预测即可用于计算训练损失,也可用于测试时的完整构象。作者团队设计了一个非对抗性的基于损失函数的最优传输来促进多样的构象生成。GEOMOL优于流行的开源、商业或最先进的ML模型,同时速度得到了显著提升。我们希望这种可微的三维结构生成器能对分子建模和相关应用产生重大影响。

论文链接:

https://arxiv.org/abs/2106.07802

代码:

https://github.com/PattanaikL/GeoMol

作者团队主要探讨下面这个问题:我们能否从分子图中设计出高质量、具有代表性、多样性和泛化性的低能量三维构象集的快速ML生成模型?

为了解决这个问题,作者提出了GEOMOL,它具有以下特点:

  • 它是端到端可训练的、非自回归的、并且不依赖DG技术

  • 它以SE(3)不变(平移/旋转)方式对构象建模

  • 它明确地建模和预测扭转角和局部3D结构(每个原子附近的键距离和键角),并且我们不会过度参数化这些预测

  • 我们使用MPNN和自我注意网络联合预测它们

  • 通过使用最优传输,GEOMOL只需要最小化对数似然损失,就能找到和真实构象的最佳匹配

  • 我们在两个基准上进行实验:

    GEOM-QM9(与气相化学相关的小分子)和GEOM-DRUGS(类药物分子)

  • GEOMOL在几秒钟或更短的时间内处理类似药物的分子,而不牺牲质量

GEOMOL模型描述

内容中包含的图片若涉及版权问题,请及时与我们联系删除