本文介绍的是来自中国科学技术大学祝金华和微软亚洲研究院联合发表在KDD 2022上的文章"Unified 2D and 3D Pre-Training of Molecular Representations"。大多数以前的分子表示学习工作采用分别处理2D和3D信息的方法,而联合利用这两个来源可能会训练更多信息的表示。在这项工作中,本文提出了一种在同一个模型中同时处理分子的2D和3D信息的方法。对原子坐标和原子间距离进行编码,然后通过图神经网络将其与原子表示进行融合。在11项下游分子性质预测实验中取得了10个最先进结果,与纯2D任务相比,平均提高了8.3%。在两个三维构象生成任务上也取得了显著的改进。
文章地址:
https://dl.acm.org/doi/10.1145/3534678.3539368
代码地址:
https://github.com/teslacool/UnifiedMolPretrain
为了有效地统一2D和3D信息,作者设计了几个预训练任务:
(1)掩蔽原子和坐标的重建,即在非掩蔽原子的基础上重建随机掩蔽的原子和坐标;
(2)以2D图为条件的3D构象生成,即基于分子的2D图形生成3D构象;
(3)以3D构象为条件的2D图形生成,即基于分子的3D构象生成2D图形。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢