新理论揭开了深度学习的黑匣子。一个被称为“信息瓶颈”的新想法正在帮助解释当今人工智能算法令人困惑的成功,也可能解释人类大脑是如何学习的。
Ravid Shwartz-Ziv 纽约大学数据科学中心的CDS研究员,在那里我主要与Gordon Wilson 和 Yann Lecun合作,研究贝叶斯深度网络、信息论和自监督学习。
个人主页:
https://www.ravid-shwartz-ziv.com/
尽管深度神经网络已经取得了巨大的成功,但对它们如何工作或如何构建的全面的理论理解还不存在。深度网络通常被视为黑盒,预测的解释及其可靠性仍不清楚。今天,了解深度神经网络的突破性性能是科学界面临的最大挑战之一。为了更有效地使用这些算法并改进它们,我们需要了解它们的动态行为以及它们学习新表示的能力。
本文通过将信息理论的原理和技术应用到深度学习模型来解决这些问题,以提高我们的理论理解,并使用它来设计更好的算法。本文的主要成果和贡献分为三个部分,具体如下。
第二章和第三章介绍了深度学习模型的信息理论方法。作为对深度学习系统的解释,我们提出使用信息瓶颈(IB)理论。这种分析网络的新范式揭示了网络的分层结构、泛化能力和学习动态。基于我们的分析,我们发现深度网络优化了每一层输入和输出变量的互信息,导致了每一层压缩和预测之间的权衡。我们对这些网络的分析和数值研究表明,随机梯度下降(SGD)算法遵循IB权衡原则,工作在两个阶段:一个快速经验误差最小化阶段,然后是一个缓慢的表示压缩阶段。这些相位由每一层不同的信噪比(SNRs)来区分。此外,我们证明了SGD由于压缩阶段而达到了这个最优界,并在表示压缩上导出了一个新的高斯界,并将其与压缩时间联系起来。此外,我们的结果表明,网络的层收敛于IB的理论边界,导致编码器和译码器分布之间的自洽关系。
第四章讨论了将IB应用到深度神经网络中最困难的问题之一——在高维空间中估计互信息。尽管互信息在数据科学中是一个重要的数量,但它在历史上给计算带来了挑战。互信息的计算只适用于离散变量或已知概率分布的有限数量的问题。为了更好地估计信息理论量和研究泛化信号,我们研究了几个框架,并利用了最近的理论发展,如神经切线核(NTK)框架。在我们的研究中,我们发现对于无限宽的神经网络的无限集合,我们可以得到许多信息理论量及其界的易于处理的计算。网络的内核可以用一个封闭的形式来描述许多量。通过分析这些推导,我们可以了解网络的重要信息论量,以及压缩、泛化和样本大小之间的关系。
第五章提出了一种新的信息理论框架——双信息瓶颈(dualIB)。尽管IB框架有优点,但它也有几个缺点:IB是完全非参数的,并且只在概率空间上运行。此外,IB公式并不涉及预测看不见的模式的任务,并假定完全访问联合概率。因此,我们开发了dualIB,它解决了IB的一些缺点,通过仅仅在失真函数的项之间切换。dualIB可以解释数据的已知特征,并利用它们对未见过的例子做出更好的预测。我们提供了dualIB自一致方程,使我们能够得到解析解。局部稳定性分析揭示了解的临界点的基本结构,得到了最优模式表示的完全分岔图。我们发现了dualIB目标的几个有趣的性质。首先,当以参数形式表示时,dualIB保留了它的结构。它还优化了平均预测误差指数,从而提高了样本量方面的预测精度。除了dualIB的解析解决方案,我们还提供了一个变分的dualIB框架,该框架使用深度神经网络优化函数。该框架实现了对真实数据集的dualIB的实际实现。利用它,我们对其动力学进行了经验评估,并验证了现代深度神经网络的理论预测。总之,本文提出了一个新的信息论视角来研究深度神经网络,它利用了深度学习和IB框架之间的对应关系。我们独特的视角可以提供许多好处,比如对深度神经网络有更深入的理解,解释它们的行为,并改善它们的性能。同时,我们的研究也开拓了新的理论和实践研究问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢