【论文标题】
【作者团队】
【发表时间】2021/04/16
【机 构】
【论文链接】https://arxiv.org/pdf/2103.03547v4.pdf
【推荐理由】基于Motif的分子图对比学习预训练新模式
通过自监督对比学习的图神经网络(GNN)进行预训练最近引起了很多人的关注。然而大多数现有的工作集中在节点级的对比学习上,这并不能捕获全局图结构。进行子图级对比学习的关键是如何寻找有在语义信息上有意义的子图。为了解决这个问题,本文提出学习图的motif以获得更好的子图采样,这些motif即为经常出现的子图(如分子的官能团)。作者对此提出框架 MICRO-Graph(MotIf-driven Contrastive learning Of Graph representations),该框架可以:使用GNN来从大型图数据集中提取motif;利用学到的motif帮助更具信息子图的采样以进行GNN对比学习。在这个框架下,作者将motif学习表述为一个可微分的聚类问题,并且采用EM聚类法将相似和重要的子图归为motif。在这些事先学习到motif的指引下,采样器被训练来生成信息量更大的子图,这些子图被用来通过图与子图的对比学习来训练GNN。本文使用MICRO-Graph对ogbg-molhiv数据集进行预训练,在各种下游基准数据集上实现了2.04%的ROC-AUC平均性能提升,显著高于其他最先进的自监督学习基线。文中展示了相应代码的demo。
如上图所示,给定一个图数据集,我们学习一个motif embedding表以存储motif的原型。对于一对输入图G1和G2,我们利用所学的motif来生成类似motif的子图,并进行图与子图的对比学习。若子图与图来自于同一张分子图,则为正,若来自不同分子图则为负。
上图为MICRO-graph的框架,GNN以自监督的方式训练,自动提取motif,学习到的motif被用来生成更具信息子图以用于图与子图的对比学习。具体步骤如下:
1.将一批分子图输入GNN编码器以获得其上下文的Node embedding。
2. 对Node进行分组以提取类似motif的子图,并进一步汇集以获得子图embedding。
3. 将子图嵌入送入两个学习模块,Motif学习模块通过更新motif embedding,最大化这些子图的可能性;而对比学习模块则更新GNN的参数。
模型最终结果如上图所示,与各个基线模型相比,MICRO-Graph实现了性能提升。
上图为某结果的解释,展示了整个图和三个子图之间的放大到每个维度的相似度。x轴是每个维度总共300维,y轴是整个图表征的相应维度和每个子图表征的相似性分数,橙色表示前20名的相似度。可以看到,这三个子图有非常不同的相似性分数分布,尽管在所有300个维度上的总和给出了相相的高分。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢