题目:On Provable Benefits of Depth in Training Graph Convolutional Networks
作者:
Weilin Cong (Pennsylvania State University)
Morteza Ramezani (Pennsylvania State University)
Mehrdad Mahdavi (TTI Chicago)
论文链接:
https://arxiv.org/abs/2110.15174
本文旨在回答两个基本问题:
Q1:增加深度真的会削弱GCN的表达能力吗?
在第四节中,本文作者论证了基于过平滑的理论结果与深层GCN模型的实际能力之间存在差异,说明过平滑并不是导致更深层次GCN性能下降的关键因素。。特别地,本文作者从数学上证明了over-smoothing[40,25,34,4]主要是理论分析的产物和分析中的简化。实际上,通过刻画GCN的表示能力,Weisfeiler-Lehman(WL)图同构检验[38,54]表明,深层GCN模型的表达能力与浅层GCN模型一样少,只要GCN训练得当,深层GCN模型可以区分出浅层GCN无法区分的不同邻域的节点。此外,本文作者从理论上证明,对于较深层的模型来说,较多的训练迭代,可以以达到与浅层模型相同的训练误差,这进一步表明,深层GCN训练中较差的训练误差很可能是由于不适当的训练造成的。
Q2:如果有表现力,那么为什么深层GCN泛化得很差
在实验方面,本文作者对GCNs及其变体(如ResGCN、APPNP和GCNII)在节点分类任务的半监督设置下进行了一种新的泛化分析。发现GCNs的泛化差距与训练迭代次数、最大结点度、权重矩阵的最大奇异值和层数有关。特别是,本文作者的结果表明,更深的GCN模型需要更多的训练和优化迭代才能收敛(例如,添加跳过连接),这导致了较差的泛化。更有趣的是,泛化分析表明,大多数所谓的解决过光滑问题的方法[46,60,6,28]都能极大地提高模型的泛化能力,从而得到更深层次的结果.
在第六节中,本文作者提出了一种新的框架--解耦GCN(DGCN),该框架能够训练更深层次的GCN,并能显著提高泛化性能。其主要思想是通过将权重参数与特征传播解耦来分离表达能力和泛化能力。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢