Molecular Topological Profile (MOLTOP) -- Simple and Strong Baseline for Molecular Graph Classification

2024年07月16日
  • 简介
    我们重新审视了拓扑描述符在分子图分类方面的有效性,并设计了一个简单但强大的基线模型。我们证明了一种简单的特征工程方法——使用边描述符的直方图聚合以及对原子编号和键类型进行独热编码——结合随机森林分类器,可以为图神经网络(GNN)建立一个强大的基线。这种新颖的算法,分子拓扑剖面(MOLTOP),集成了边介数中心性、调整兰德指数和SCAN结构相似度评分。这种方法在与现代GNN相比时证明了其极具竞争力,同时还具有简单、快速、低方差和超参数自由等特点。我们的方法在由Open Graph Benchmark提供的公平评估协议下,经过严格测试,使用MoleculeNet数据集。我们还展示了在长程图基准测试的肽分类任务中的域外生成能力。在十一个基准数据集上进行的评估显示,MOLTOP具有很强的判别能力,对于某些图形类别甚至超过了1-WL测试和3-WL测试。我们的结论是,基于描述符的基线模型,如我们所提出的模型,仍然是准确评估GNN领域进展的关键。
  • 图表
  • 解决问题
    论文旨在重新评估拓扑描述符在分子图分类中的有效性,并设计一个简单但强大的基准。
  • 关键思路
    论文提出了一种新的算法MOLTOP,它利用边介数中心性、调整兰德指数和SCAN结构相似度分数,通过直方图聚合边描述符和原子编号以及键类型的独热编码,与随机森林分类器相结合,建立了一个强大的基准。
  • 其它亮点
    论文使用了公平的评估协议,对MoleculeNet数据集进行了严格测试,并展示了对长程图基准中肽分类任务的域外生成能力。研究表明MOLTOP在分类能力上非常强大,甚至在某些类别的图形中超过了1-WL测试和3-WL测试。该算法简单、快速、低方差且无需超参数。
  • 相关研究
    最近的相关研究包括:Graph Convolutional Networks、Message Passing Neural Networks、Deep Graph Infomax、Diffusion Convolutional Recurrent Neural Network等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论