https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00479-8

分子表示学习(Molecular representation learning, MRL)是建立机器学习与化学科学联系的关键步骤。特别是,它将分子编码为保留分子结构和特征的数值向量,在此基础上可以执行下游任务(如性能预测)。近年来,MRL取得了相当大的进展,特别是在基于深度分子图学习的方法中。在这项综述中,我们系统地回顾了这些基于图的分子表示技术。具体来说,我们首先介绍了二维和三维图形分子数据集的数据和特征。然后,我们总结了专门为MRL设计的方法,并将其分为四种策略。此外,我们还讨论了MRL支持的一些典型的化学应用。为了促进这一快速发展领域的研究,我们也在论文中列出了基准和常用的数据集。最后,我们分享了对未来研究方向的思考。

机器学习和化学科学之间的相互作用受到了这两个领域研究人员的极大关注。它在包括分子性质预测在内的各种化学应用中取得了显著的进展[Guo et al., 2020; Sun et al., 2021; Yang et al., 2021b; Liu et al., 2022b],反应预测[Jin等人,2017;Do等人,2019],分子图生成[Jin et al., 2018a; Jin et al., 2020b]以及药物-药物相互作用预测[Lin等人,2020]。分子表示学习(MRL)是弥补这两个领域差距的重要步骤。MRL的目标是利用深度学习模型将输入的分子编码为数值向量,保存有关分子的有用信息,并作为下游(机器学习)应用的特征向量。早期的分子表示学习方法使用一般表示学习模型来表示分子,而不需要明确地涉及领域知识。近年来,针对MRL专门设计了许多算法,这些算法可以更好地融合化学领域知识。在本文中,我们系统地回顾了这一快速发展的主题的进展,绘制了从结合分子结构的表示学习方法到同时结合领域知识的方法的路径。

 

动机1: 为什么分子表示学习很重要?

分子表示学习具有广泛的应用范围,与人们的生活密切相关。例如,通过wet-lab实验发现药物是非常耗时和昂贵的。随着深度学习的发展,大量的实验可以用机器学习模型来模拟。性质预测可以帮助识别具有目标性质的分子。反应预测可以预测主要产物。这大大减少了失败实验的数量。对于所有这些化学应用,MRL是深度学习模型成功的关键决定因素。

 

动机2: 为什么要用深度图学习来进行分子表示学习?

分子图自然地描述了具有丰富结构和空间信息的分子。分子本质上是原子和连接原子的键,这自然会导致它们自己的图表示。相对于基于分子的线状表示(即串),分子图为MRL模型提供了更丰富的信息。因此,基于图的MRL模型比基于序列的MRL模型发展得更快。此外,越来越多的通用图学习论文[Gilmer et al., 2017; Hu* et al., 2020; You et al., 2020]也使用分子图数据集来检查他们算法的性能。

 

这项工作的主要贡献总结如下:

 

  • 我们系统回顾了基于各种分子输入的基于图的MRL模型的最新进展,并总结了专门针对MRL设计的策略。
  • 为了鼓励对该主题的可重复性研究,我们总结了各种下游应用中的代表性基准和常用数据集。
  • 我们讨论了二维和三维分子图的局限性,并分享了我们对未来MRL研究方向的想法,以供社区参考

基于图的分子表示学习综述: (a) 两个分子图; (b) 图神经网络的一般学习过程; (c) 提出了四种基于图的分子表示学习方法; (d) 聚合原子表示以获得分子表示的过程。

内容中包含的图片若涉及版权问题,请及时与我们联系删除