论文标题:Rethinking ResNets: Improved Stacking Strategies With High Order Schemes 论文链接:https://arxiv.org/abs/2103.15244 作者单位:早稻田大学

本文提出了更高阶的ResNet变体:HO-ResNet,平均涨2+个点!并在广泛使用的CV基准上用充分的实验来验证这些假设。观察到性能稳定且显著的提高,且有助于收敛性和鲁棒性。

各种深度神经网络体系结构在计算机视觉中保持着大量的重要记录。在引起全球关注的同时,整体结构的设计也缺乏一般性的指导。基于近年来一些研究人员观察到的DNN设计与数值微分方程之间的关系,我们对残差设计和高阶视角进行了公平的比较。我们表明,在扎实的理论知识和无需额外参数的支持下,可以轻松地改进广泛使用的DNN设计策略(不断堆叠小的设计)。我们以较高阶的方式重组残差设计,这是受以下观察启发的:许多有效的网络可以解释为微分方程的不同数值离散。 ResNet的设计遵循一个相对简单的方案,该方案是Euler提出的;但是,堆叠时的情况迅速复杂化。我们假设堆叠的ResNet在某种程度上等于高阶方案,那么与典型的高阶方法(如Runge-Kutta)相比,当前的转发传播方式可能相对较弱。我们提出了更高阶的ResNet,以通过充分的实验来验证关于广泛使用的CV基准的假设。观察到性能稳定且显著的提高,且有益于收敛性和鲁棒性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除