- 简介本文研究了深度多层感知器(MLP)如何编码低维特征表示,并将这种行为与信息瓶颈(IB)理论联系起来。在训练过程中,深度神经网络倾向于展现出对低秩解的偏好,从而隐含地学习低维特征表示。我们引入了局部秩的概念作为特征流形维度的度量,并理论和实验两方面证明了该秩在训练的最后阶段会降低。我们认为,降低学习表示的秩的网络也会压缩输入和中间层之间的互信息。这项工作弥合了特征流形秩和信息压缩之间的差距,为信息瓶颈和表示学习之间的相互作用提供了新的见解。
- 解决问题本文探讨深度神经网络在训练中对低秩解的偏好,以及如何将这种行为与信息瓶颈理论联系起来。
- 关键思路本文引入了局部秩的概念作为特征流形维度的度量,并理论和实证地证明了在训练的最后阶段,特征流形的秩会降低。作者认为,降低学习表示的秩也会压缩输入和中间层之间的互信息。
- 其它亮点本文将特征流形秩和信息压缩联系起来,为信息瓶颈和表示学习之间的相互作用提供了新的见解。实验使用了多层感知器(MLP)和多个数据集,并提供了开源代码。
- 与本文相关的研究包括“Information bottleneck method”(Tishby and Zaslavsky,2015)、“Deep Information Propagation”(Shwartz-Ziv and Tishby,2017)等。
沙发等你来抢
去评论
评论
沙发等你来抢