- 简介我们介绍了一种名为GraphGPT的新型模型,用于自监督生成预训练变压器进行图形学习。我们的模型首先使用欧拉路径将每个图形或采样子图转换为可逆地表示节点、边和属性的令牌序列。然后,我们将这些令牌馈送到标准变压器解码器中,并使用下一个令牌预测(NTP)任务进行预训练。最后,我们使用监督任务对GraphGPT模型进行微调。这种直观而有效的模型在大规模分子数据集PCQM4Mv2、蛋白质-蛋白质关联数据集ogbl-ppa和来自Open Graph Benchmark(OGB)的ogbn-proteins数据集上实现了优越或接近现有最先进方法的图形、边缘和节点级任务的结果。此外,生成预训练使我们能够训练GraphGPT超过400M个参数,并且性能持续增加,这超出了GNN和以前的图形变压器的能力范围。源代码和预训练检查点将很快发布,以为图形基础模型研究铺平道路,并协助制药、化学、材料和生物信息学等领域的科学发现。
- 图表
- 解决问题本论文旨在解决图学习中的自监督预训练问题,以及在大规模分子数据集、蛋白质-蛋白质关联数据集和OGBN蛋白质数据集上进行有监督任务。
- 关键思路GraphGPT模型将每个图或采样子图转换为可逆地表示节点、边和属性的令牌序列,并使用Eulerian路径进行编码,然后将令牌输入标准Transformer解码器进行预训练,并使用有监督任务进行微调。
- 其它亮点GraphGPT模型具有直观且有效的特点,可以实现高达400M+参数的预训练,并在大规模分子数据集、蛋白质-蛋白质关联数据集和OGBN蛋白质数据集上实现了优秀的结果。论文提供了源代码和预训练检查点,有助于推动图基础模型研究,并在制药、化学、材料和生物信息学等领域促进科学发现。
- 最近的相关研究包括:《Graph Attention Networks》、《Semi-Supervised Classification with Graph Convolutional Networks》、《GNNExplainer: Generating Explanations for Graph Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢