DRUGAI

今天为大家介绍的是来自Alexandre Tkatchenko团队的一篇论文。计算机驱动的分子设计结合了化学、物理和人工智能的原理,用于识别具有特定性质的化合物。虽然量子力学方法结合机器学习,已经能够从三维分子结构直接映射到它们的性质,但在化学空间中进行逆向映射的有效方法仍然难以捉摸。作者通过展示用有限的量子力学性质参数化化学空间的可能性,来解决这一挑战。作者的概念验证实现了近似的性质到结构映射,即QIM模型(意为“量子逆向映射”),通过强制变分自编码器与性质编码器获得结构和性质的共同内部表示。在验证了这一映射对小型药物分子的有效性后,作者通过解释性研究以及生成具有目标性质的新分子结构和构象异构体之间的过渡路径来展示其能力。因此,作者的发现提供了一个原理验证,旨在使多样化化学空间中的逆向性质到结构设计成为可能。

化合物的发现和优化得益于量子和统计方法的显著进步、先进软件的应用以及计算机硬件的不断改进。不同于传统的依赖实验工作的费时费力的试错过程(即爱迪生式方法),我们现在可以仅使用分子对应的原子坐标和原子类型,通过量子力学方法计算出给定化合物的一系列精确的物理化学性质。然而,利用高度精确的量子力学方法理性地探索极其庞大的化合物空间(Chemical Compound Space,CCS)仍然不可行,因为其计算成本过高,即使是小型有机分子也包含个分子结构。在这方面,机器学习技术通过提供一种快速但同样准确的方法,从三维分子结构中获得性质(即直接映射),彻底改变了分子设计领域,使其成为高通量筛选流程中不可或缺的资源。虽然这些近似映射无疑增强了我们对CCS的理解,但逆向映射的可能性才真正有可能彻底颠覆和变革这一领域。解决这一挑战将允许作者根据内在性质预测三维分子结构,这代表着化合物设计和发现功能性化合物的范式转变。


建立逆向映射的探索已经成为一项艰巨的挑战,吸引了来自有机化学、材料科学和分子对接等领域研究人员的兴趣和投入。实际上,生成建模在化学信息学领域已经产生了许多突破性的研究成果,特别是在利用SMILES等基于文本的表示进行的语言模型和自回归生成方面,研究广泛涉及多种生成架构。这些引人注目的例子突显了解决逆向设计问题的相关性,但使用性质作为坐标来参数化CCS的潜力尚未被探索。克服这一挑战将为理解和操控有机分子性质与结构之间的复杂关系奠定基础,提供一种替代且多方面的研究方法。


模型部分

图 1


者提出了一种更灵活且量身定制的方法,即QIM模型(意为“量子逆向映射”),它结合了变分自编码器(VAE)架构来编码分子结构(表示为库仑矩阵),并结合一个性质编码器来编码相关的量子力学性质,见Fig. 1。VAE和性质编码器的联合训练产生了一个低维的内部表示,这对于分子结构和量子力学性质都是共同的。这使作者能够将性质编码器与VAE的解码器组件结合,从而成功地使用量子力学性质作为内在坐标来近似CCS参数化,以导航QM7-X数据集中包含的小型类药分子的化学空间。


QIM模型准确预测了分子的重原子组成,合理地重建了它们的几何结构,并且符合单次和可微分的标准,使其具有可解释性和灵活性。由于作者的CCS参数化的可微性,可以识别分子重建过程中最相关的性质以及QM7-X所覆盖的分子性质空间中的子结构。通过在性质的输入空间中有条件地采样,作者还实现了具有明确目标的两个不同设计任务的传统多目标生成建模范式,产生了与在相同任务上训练的专门模型cG-Schnet相当的结果。作为学习CCS参数化能力的最终展示,作者实现了一个测地线搜索算法,使用潜在空间表示作为内部坐标,通过仅从平衡几何结构中学习,定义了过渡结构并估算了旋转能量轮廓。


QIM模型在分子重建上的性能

表 1


为了训练VAE和性质编码器,作者选取了QM7-X数据集中40,988个平衡构象的子集,这些分子包含最多七个重原子,包括C、N和O。在每个构象中,选择了17个量子力学全局广延(extensive)和强度(intensive)性质(见表1)来定义性质编码器。

图 2


现在,作者评估训练好的QIM模型在预定义的一组量子力学性质基础上建立化合物空间(CCS)近似参数化的能力。为此,作者将使用测试集中分子及其对应的性质,即使用这些分子的性质集来构建模型,然后将生成的分子与原始分子进行比较。图2a显示了用于训练模型的性质数量增加时,库仑矩阵(CM)重建的相对误差箱形图。这里,作者分析了CM的相对误差,而不是结构之间的均方根偏差(RMSD),因为后者仅对组成正确预测的分子定义,因此在不同性质数量之间会有更多波动,尤其是在使用的性质数量较少且组成误差较高时。可以看到,模型在训练过程中考虑超过七个性质时,重建表示的平均误差收敛至约5%,之后中位数值显示分布逐渐偏斜。这个相对误差定义为,其中C是原始CM,Ĉ是重建的CM(均视为向量)。虽然作者提供了CM重建误差的均值和偏差,但需要注意的是,这个指标并不能完全反映映射的质量,因为它与RMSD之间存在噪声和非线性相关。


为了更好地理解这一发现,作者还报告了测试集中完整性质集的RMSD分布和累积分布(见图2b)。当考虑较少的性质时,QIM模型的性能会下降。实际上,当考虑完整的性质集时,RMSD分布的模式接近0.5 Å。总体来看,尽管RMSD范围较广(0.05到1.6 Å),作者发现测试集中约70%的分子在RMSD = 0.7 Å内得到了重建。通过经验发现,这一阈值足以将拓扑结构和方向正确的重原子结构分子分离出来。为了进一步证明这一阈值的选择,作者在图2c中提供了一些原始分子和重建分子的示例。


在化学成分重建方面,模型表现出优异的性能,正确预测了测试集中99.96%的分子。此外,作者还研究了在训练过程中分别考虑广延性质和强度性质对QIM模型性能的影响,见补充信息的Supplementary Fig. 4。与最终模型相比,基于单一性质训练的模型在结构重建中表现出更多高RMSD的结构,表明其重建性能较低。实际上,基于强度性质训练的模型只能正确重建测试集中约8000个分子中的10000个。这种从99.96%到75.85%的重建精度下降伴随着RMSD增加到0.7 Å,以及重建RMSD低于0.7 Å的分子减少到55%。简而言之,这些结果证实了在QIM模型训练中使用两种性质以更好地重建分子结构的必要性。


QIM模型的可解释性和性能

图 3


通过实现梯度归因图对建立的CCS参数化进行分析,这使得作者可以评估每个性质对输出结构的个体贡献。图3显示了每个性质的A值,这些值已归一化到最大值,并按降序排列。总体上,作者发现广延性质在分子重建任务中比强度性质更具信息量。这可以解释为这些广延性质依赖于一些关键的分子特征,这些特征也在像库仑矩阵(CM)这样的三维表示中被考虑,例如原子数量、电子数量(与化学组成相关)和几何结构。此外,在比较CM时,即使一个原子的微小差异也能显著增加损失,导致模型对系统大小和组成变化的敏感性增加。因此,总能量和分子极化率的A值比分子轨道能量和偶极矩的A值更高;特别是和表现出最大的A值。有趣的是,这一发现与VAE编码器潜在空间的二维主成分分析(PCA)中分子簇的识别结果一致,即A值越高,性质与PCA的相关性越高(见图3中的插图)。当使用更复杂的降维技术如t-SNE时,类似的观察结果也成立。像PCA这样的线性方法在能量相关性质方面显示出良好的组织,这一非平凡的发现将在过渡结构插值中进一步利用。


图 4


此外,作者研究了QM性质的层次结构如何组织QM7-X化合物空间。从具有最高A值的性质开始,在图4a中可以看到由和定义的QM7-X分子性质空间的二维投影。尽管这两个性质具有高度的反相关性(Pearson系数= -0.92),但可以明显看出数据集中的分子似乎按照线性形状的簇进行组织,这些簇包含具有相同重原子组成的分子。特别是,仔细检查这些簇后,可以发现主要受到分子内重原子组成的影响。而另一方面,对H原子数量高度敏感,从而表明其依赖于存在的特定键类型。


图4b进一步分析了这一现象,作者对一个高密度簇(见图中的黄色椭圆)进行了详细检查,并根据H原子数量突出显示了分子。这里,作者揭示了一个具有几乎完美反相关性(Pearson系数= -0.99)的更细局部结构,以及由异构体形成的非常紧凑的簇。总体而言,可以通过考虑和的定性方面来理解这一行为:的主要贡献来自内层电子(维里定理的直接结果),而的主要影响来自价电子。此外,交换相关量在表征键方面起到了重要作用,解释了它们对分子中H原子数量的敏感性。这些考虑解释了这两个QM性质在识别分子异构体簇空间和准确预测重原子组成方面的有效性。


接下来,作者选择一个分子异构体子空间(见图中的蓝色圆圈),展示高A值和低A值的不同量子力学性质对分子结构的分布情况(见图4c、4d)。正如预期,高A值的性质更好地作为局部坐标来探索这个子空间。这些性质在相关结构之间的数值变化相对较小,能有效识别特定分子异构体子空间内的分子结构,并将其与跨越整个性质谱的其他结构区分开来。需要注意的是,这种行为在整个QM7-X平衡分子集中都能找到。以上发现已经提供了有力的证据,证明作者的概念验证实现有助于加深对分子性质空间的理解,并揭示量子力学性质和分子结构之间的复杂关系。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Fallani, A., Medrano Sandonas, L. & Tkatchenko, A. Inverse mapping of quantum properties to structures for chemical space of small organic molecules. Nat Commun 15, 6061 (2024).

内容中包含的图片若涉及版权问题,请及时与我们联系删除