论文链接:
https://openreview.net/forum?id=mSiPuHIP7t8
代码链接:
https://github.com/Emiyalzn/GraphDE
写在前面
当下,图神经网络(GNN)在图数据表示学习上已经取得了非常有效的进展,并推动了一系列诸如药物生成、文本图像分类等下游应用的发展。然而,现有的图神经网络往往都建立在一个并不可靠的独立同分布(i.i.d.)假设之上:即训练和测试数据均是从同一个数据分布中独立采样而来。
真实场景中,训练数据常常混有一系列有偏数据点(biased data),在测试时模型也不可避免地会遇到一些来自与训练集不同分布(OOD)的样本。现有工作已经表明在训练集当中的有偏数据会导致错误方向的梯度更新[1]以及过拟合问题[2],进而使得模型在测试数据上的表现大打折扣;
此外,来自与训练集不同分布的测试数据也极有可能被以很大的概率分到一个错误的类别当中[3]。与已经被广泛研究的图片、向量格式数据不同,图数据不具备欧几里得性质(non-Euclidean property),每一张图在拥有大量节点的同时还具有独特的图结构信息。因此,定义图数据的分布需要有效地捕捉来自特定节点的以及局部和整体结构的信息和他们之间的关系,导致我们无法通过简单地迁移拓展现有方法来解决这一问题。
在该文中,我们提出了一种有效的针对图数据的去偏学习框架(GraphDE)来缓解训练集中有偏数据点的不良影响,并从中得出一个有效的分布外图数据检测器来检测出测试集当中来源于不同分布的图数据来进行针对性的后处理。
该工作的主要贡献总结如下:
-
聚焦于两个重要但并未被解决的针对图数据的问题:去偏学习(debiased learning)和分布外检测(OOD Detection),我们发现了它们之间的关联并将它们定义在了一个统一的概率框架下。
-
我们提出了名为GraphDE的生成式框架,基于一个新颖的学习目标,我们理论证明了:1) 该框架能在训练过程中自动鉴别并降低有偏数据的梯度权重; 2) 该框架能够提供一个在测试集上适用的分布外检测器(OOD Detector); 3) 该框架的组成模块在优化过程中能够相互促进彼此的性能。
-
我们在共计在四个拥有不同OOD属性的数据集(一个仿真数据集,三个真实数据集)上基于四个典型GNN骨干模型测试了GraphDE的去偏学习和OOD检测效果,充分验证了其有效性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢