早期的工作表明,多层感知机(Multi-layer Perceptron,MLP)在学习简单的多项式函数时不能很好地外推。然而近期的⼀些工作则表明,在部分具有挑战性的算法任务上(例如求解数学方程、预测物理系统的时间演化),图神经网络(Graph Neural Network,GNN)具有很好的泛化能力,能够将训练结果推广至比训练集更大的图上。 多层感知机与图神经网络截然相反的表现引人深思:什么样的网络,在什么样的条件下才会具有较强的外推能力呢? 今天给大家分享的这篇论文便研究了这一问题。该文在ICLR'21的review阶段获得了最高的平均得分。审稿人们纷纷赞其见解之深刻,在神经网络外推能力的分析上迈出了重要的一步。

论文题目:How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks 论文链接:https://arxiv.org/pdf/2009.11848.pdf 为了解释为何不同神经网络的外推能力不尽相同,论文作者详细探究了使用梯度下降训练的神经网络是如何外推的。直觉上来说,神经网络在训练分布之外的表现是任意的、不可预料的[7],但事实上,如果网络用梯度下降算法进行训练,则它的外推能力是有规律可循的。 在我们评价神经网络的外推能力前,我们需要先确定一个指标来衡量它。为此,论文作者定义了外推误差这一概念。一个模型的外推误差越小,则其外推能力越强。作者基于此讨论了MLP和GNN的具备外推能力的条件。

内容中包含的图片若涉及版权问题,请及时与我们联系删除