【论文标题】Molecular Contrastive Learning with Chemical Element Knowledge Graph

【作者团队】Yin Fang, Qiang Zhang, Haihong Yang, Xiang Zhuang, Shumin Deng, Wen Zhang, Ming Qin, Zhuo Chen, Xiaohui Fan, Huajun Chen

【发表时间】2021/12/01

【机 构】浙大等

【论文链接】https://arxiv.org/abs/2112.00544

分子表征学习有助于多种下游任务,如分子特性预测和药物设计。为了正确地表征分子,图对比学习是一个很有前途的范式,因为它利用了自监督信号,而且对人类注释没有要求。然而,先前的工作未能将基本的领域知识纳入图的语义中,因此忽略了具有共同属性但不直接由键连接的原子之间的相关性。为了解决这些问题,本文构建了一个化学元素知识图谱(KG)来总结元素之间的微观关联,并提出了一个新的知识增强对比学习(KCL)框架用于分子表征学习。KCL框架由三个模块组成。第一个模块,知识引导的图增强,基于化学元素KG增强原始分子图。第二个模块,知识感知图表征,用原始分子图的通用图编码器和知识感知消息传递神经网络(KMPNN)提取分子表示,以编码增强的分子图中的复杂信息。最后一个模块是对比预训练,在这里本文最大限度地提高这两种分子图的观点之间的一致性。广泛的实验表明,相对于最先进的基线,KCL在八个分子数据集上获得了卓越的性能。另外,可解释性可视化正确地解释了KCL从增强的分子图的原子和属性中所学到的东西。

KCL的一个说明性例子。

模块1:知识引导的图增强将原始分子图G转换成基于化学元素KG的增强分子图。

模块2:知识导向的图表征法分别从两个图视图中捕捉到表征。

模块3:对比目标训练编码器和投影头,计算对比损失。

上表展示了在微调protocol下,KCL的属性预测性能,与8个数据集上的监督学习和预训练方法基线相比。简单来多,KCL在所有的数据集上都以较大的幅度取得了最好的性能。在所有数据集上的总体相对改进是7.1%(分类任务2.6%,回归任务20.4%,这一明显的性能改进表明KCL对分子特性预测任务的有效性。在只有642个标记分子的小型数据集FreeSolv中,KCL比SOTA基线获得了16.8%的改进。这证实了KCL的优势,因为它可以大大帮助处理标签信息非常有限的任务。

上图为BBBP数据集中不同类型的邻居(属性和原子)的注意力可视化例子。右边是为连接到两个C原子的化学键分配的关注权重。颜色越深,注意力越高。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除