On the Limitations of Fractal Dimension as a Measure of Generalization

2024年06月04日
  • 简介
    本文讨论了超参数神经网络的泛化差距的界定和预测问题,这是理论机器学习中的一个中心未解决问题。研究表明,神经网络优化轨迹具有分形结构,这导致基于这些轨迹的分形维数的界限和泛化度量。其中,Hausdorff维度和持久同调维度被提出与泛化差距相关,因此可以作为泛化度量。本文对这些拓扑泛化度量进行了扩展评估。我们证明,分形维数无法预测从较差初始化训练的模型的泛化性能。我们进一步发现,最简单的学习理论复杂度度量之一——最终参数迭代的$\ell^2$范数与泛化差距的相关性比分形维数更强。最后,我们的研究揭示了基于持久同调的泛化度量中模型双下降的有趣表现。本文为深入研究分形几何、拓扑数据分析和神经网络优化之间的因果关系奠定了基础。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决过参数化神经网络的泛化差距问题,并评估使用分形维度和持久同调维度作为泛化度量的有效性。
  • 关键思路
    使用分形维度和持久同调维度作为泛化度量并不能很好地预测模型的泛化性能,而使用最终参数迭代的L2范数可以更好地预测泛化差距。此外,研究还揭示了持久同调维度中的双峰现象。
  • 其它亮点
    研究发现使用分形维度和持久同调维度作为泛化度量不能很好地预测模型的泛化性能;使用最终参数迭代的L2范数可以更好地预测泛化差距;揭示了持久同调维度中的双峰现象。实验使用了多个数据集,并提供了开源代码。
  • 相关研究
    相关研究包括:FractalNet、Double Descent、Deep Double Descent等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问