本文介绍一篇关于分子表征学习的文章。分子表征学习(MRL)旨在将分子嵌入到实向量空间中。然而,现有的基于SMILES(简化分子线性输入系统)或GNN(图神经网络)的MRL方法要么以SMILES字符串作为输入,难以编码分子的结构信息,要么过度强调GNN结构的重要性,而忽视了其泛化能力。因此,作者提出使用化学反应来协助学习分子表征,其核心思想在于保持分子在嵌入空间中的化学反应的等价性,即强制让每个化学方程式的反应物嵌入和生成物嵌入的总和相等,该限制在保持嵌入空间的有序性和提高分子嵌入的泛化能力中被证明是有效的。此外,该模型可以使用任何GNN作为分子编码器,与GNN结构无关。实验结果表明,这种方法在各种下游任务中都达到了最佳性能,超过了最佳基线方法。

作者将该模型称为MoLR(chemical-reaction-aware molecule embeddings,化学反应感知的分子嵌入)。并且将可视化分子嵌入,表明它们能够编码反应模板和几个关键的分子属性,如分子大小和最小环的数量。

图1:(a) GNN编码器处理脯氨酸分子,省略了氢原子;(b) 丙酸和丙醇的费希尔酯化反应,以及模型学习到的相应反应模板。反应中心用橙色表示,距离反应中心1或2的原子用浅橙色表示;(c)小批量化学反应对比损失的图示,dij是嵌入和之间的欧氏距离。

作者指出了今后工作的四个方向。首先,环境条件也是化学反应的一部分,需要考虑进去;第二,值得研究如何显式输出学习的反应模板;第三,值得研究如何在嵌入空间中区分立体异构体,因为现有模型不能处理立体异构体;最后,加入额外的信息(如分子的文本描述)来协助学习分子表征也是一个很有希望的方向。

论文链接:

https://arxiv.org/abs/2109.09888

内容中包含的图片若涉及版权问题,请及时与我们联系删除