深度学习的黑箱属性一直为人所诟病,很多研究者都在努力解决这一问题。其中,用信息论来提高深度神经网络的可解释性是一个非常有趣的方向。在这个方向上,「信息瓶颈」提出者、希伯来大学计算机科学教授 Naftali Tishby 及其学生 Ravid Shwartz-Ziv 的论文《 Information Flow in Deep Neural Networks 》属于必读文献。这篇博士论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果,非常值得一读。
2017 年,Tishby 和他的学生Ravid Shwartz-Ziv 联合进行了一场引入注目的实验,揭示了发生在深度学习之中的挤压过程,表明深度神经网络在压缩状态中提高泛化能力,从而更加擅长标记测试数据。这篇论文就是大名鼎鼎的《 Opening the black box of Deep Neural Networks via Information 》。深度学习先驱 Geoffrey Hinton 在听了 Tishby 的报告之后给他发了邮件:「信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。」

不幸的是,Tishby 于去年 8 月份离世,剩下的问题只能交给后人来探索。在 Tishby 去世的这年,Ravid Shwartz-Ziv 完成了他的博士论文 ——《 Information Flow in Deep Neural Networks 》。在这篇论文中,作者认为“了解深度神经网络的突破性性能是科学界面临的最大挑战之一。为了更有效地使用这些算法并改进它们,我们需要了解它们的动态行为(dynamic behavior)以及它们学习新表示的能力。”作者应用了信息论中的原理和技术来解决上述问题,以提高我们的理论理解,并运用这一理解来设计更好的算法。

 

最近,Ravid Shwartz-Ziv 表示,他已经将该论文上传到了 arXiv。

 

论文链接:https://arxiv.org/pdf/2202.06749.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除