Survival of the Fittest Representation: A Case Study with Modular Addition

向作者提问

NEW

简介

当神经网络可以学习多个不同的算法来解决一个任务时，它在训练过程中如何“选择”它们呢？为了探讨这个问题，我们从生态学中得到启发：当多个物种共存时，它们最终会达到一个平衡状态，一些物种会存活下来，而其他物种则会死亡。类比地，我们认为初始化时的神经网络包含许多解决方案（表示和算法），它们在资源约束的压力下相互竞争，最终“适者生存”。为了研究这个“适者生存”的假设，我们对执行模块加法的神经网络进行了案例研究，并发现这些网络在不同傅里叶频率下的多个圆形表示会经历这样的竞争动态，最终只有少数圆形存活下来。我们发现，初始信号和梯度较高的频率，即“适者”，更有可能存活下来。通过增加嵌入维度，我们还观察到更多的频率存活下来。受描述物种之间动态的洛特卡-沃尔特拉方程的启发，我们发现圆形的动态可以用一组线性微分方程来描述。我们在模块加法方面的结果表明，可以将复杂的表示分解为更简单的组件以及它们的基本交互，以便更好地了解表示的训练动态。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图探究神经网络在训练过程中，如何从多个算法中选择最优解决方案，并验证Survival of the Fittest假设是否适用于神经网络的训练过程。
关键思路

本文通过模块化加法的案例研究，发现神经网络在初始化时包含多种解决方案，它们在资源限制下相互竞争，最终最适应的方案得以生存。作者使用傅里叶频率分析方法探究了多个圆形表示的竞争动态，并发现具有高初始信号和梯度的频率更容易生存。
其它亮点

本文的实验结果表明，可以将复杂的表示分解为更简单的组件，并研究它们之间的基本相互作用，以便更好地了解表示的训练动态。作者还使用了类似于Lotka-Volterra方程的线性微分方程组描述了圆形之间的动态。此外，本文还提供了数据集和开源代码，方便其他研究者进行进一步研究。
相关研究

在这个领域中，最近的相关研究包括《Competitive Gradient Descent》、《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问