谷歌大佬新的图网络Benchmark。与以往堆数据的benchmark不同,这篇文章指出了单纯堆数据量可能并不让图模型学到有用的信息,与其是简单的数据量,对图模型更重要的应该还是图结构本身的数据是什么样子的。
目前来说,在图网络领域有大量的benchmark的数据集,然后大家可以在这些数据上测试新的图网络算法。但是由于数据本身可能有一些特性,导致一般情况下不能说一个新模型能通用到所有数据上,甚至一个新的模型可能会针对一个特殊的数据集产生结构上的过拟合(architectural overfitting),并且,作者认为目前的一些工作可能只是模型参数量的增加,并没有理解图本身的信息,因此很难说模型变好到底是参数量增加了还是模型真的学到了数据性质。
基于以上想法,作者提出了GraphWorld这种合成的通用Benchmark来衡量模型在图网络上的效果。首先做一个简单测试,作者设了一些合成数据,并且把现在已有的数据集也映射到了这些合成数据集的分布里面。x和y轴分别表示图数据的同质性和出入度,z表示一些经典模型与其他baseline模型预测精度对比(MRR指标, mean reciprocal rank)从这个简单实验上可以看出来,GNN模型在不同数据集上实际上是有明显差异的,尤其是在不同的虚拟数据集上。由于这些都是虚拟数据,所以现在数据已经在TF-GNN上更新开源了。由此可见,仅仅依靠现在广泛使用的图网络benchmark是有局限性的。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢