Deep Networks Always Grok and Here is Why

简介

本文讨论了深度神经网络（DNN）中的一种现象，即延迟泛化，也称为“Grokking”。在达到接近零的训练误差之后，DNN中的泛化会在很长一段时间后才发生。以前的研究已经报道了在特定控制环境下出现Grokking的情况，例如使用大范数参数初始化的DNN或在算法数据集上训练的transformers。本文证明了Grokking实际上更为普遍，并出现在许多实际环境中，例如在CIFAR10上训练卷积神经网络（CNN）或在Imagenette上训练Resnet。本文提出了延迟鲁棒性的新概念，即DNN在插值和/或泛化之后才能理解对抗性示例并变得鲁棒。我们根据DNN输入输出映射的局部复杂度提出了延迟泛化和延迟鲁棒性的出现解释。我们的局部复杂度测量了所谓的“线性区域”（又称样条分区区域）在DNN输入空间中的密度，并作为训练的有用进展测量。我们提供了首个证据表明，在分类问题中，线性区域在训练过程中会发生相变，之后它们会远离训练样本（使DNN在那里的映射更平滑），并朝着决策边界移动（使DNN在那里的映射不那么平滑）。Grokking在相变后发生，因为DNN映射在训练点周围的线性化导致了输入空间的鲁棒分区的出现。网址：https://bit.ly/grok-adversarial
图表
解决问题

探究深度神经网络中的延迟泛化和延迟鲁棒性现象，以及其背后的原因。
关键思路

提出了一种新的局部复杂度度量方法，用于衡量DNN输入输出映射中的线性区域密度，并提供了延迟泛化和延迟鲁棒性现象的解释。
其它亮点

实验表明，延迟泛化和延迟鲁棒性现象不仅出现在特定的控制设置中，而且在实际应用中也广泛存在。文章还提出了延迟鲁棒性的概念，即DNN在插值和/或泛化之后才能抵御对抗性样本攻击。作者还提供了开源代码和数据集。
相关研究

最近的相关研究包括：《Understanding deep learning requires rethinking generalization》、《Adversarial examples in the physical world》等。

Deep Networks Always Grok and Here is Why

评论