ICLR最高分论文揭秘模型泛化，GNN是潜力股

早期的工作表明，多层感知机（Multi-layer Perceptron，MLP）在学习简单的多项式函数时不能很好地外推。然而近期的⼀些工作则表明，在部分具有挑战性的算法任务上（例如求解数学方程、预测物理系统的时间演化），图神经网络（Graph Neural Network，GNN）具有很好的泛化能力，能够将训练结果推广至比训练集更大的图上。多层感知机与图神经网络截然相反的表现引人深思：什么样的网络，在什么样的条件下才会具有较强的外推能力呢？今天给大家分享的这篇论文便研究了这一问题。该文在ICLR'21的review阶段获得了最高的平均得分。审稿人们纷纷赞其见解之深刻，在神经网络外推能力的分析上迈出了重要的一步。

论文题目：How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks 论文链接:https://arxiv.org/pdf/2009.11848.pdf 为了解释为何不同神经网络的外推能力不尽相同，论文作者详细探究了使用梯度下降训练的神经网络是如何外推的。直觉上来说，神经网络在训练分布之外的表现是任意的、不可预料的[7]，但事实上，如果网络用梯度下降算法进行训练，则它的外推能力是有规律可循的。在我们评价神经网络的外推能力前，我们需要先确定一个指标来衡量它。为此，论文作者定义了外推误差这一概念。一个模型的外推误差越小，则其外推能力越强。作者基于此讨论了MLP和GNN的具备外推能力的条件。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICLR最高分论文揭秘模型泛化，GNN是潜力股

评论列表

评论