A Structure-Guided Gauss-Newton Method for Shallow ReLU Neural Network

2024年04月07日
  • 简介
    本文提出了一种结构引导的高斯牛顿(SgGN)方法,用于使用浅层ReLU神经网络解决最小二乘问题。该方法有效地利用了目标函数的最小二乘结构和神经网络结构。通过将网络的隐藏层和输出层的权重和偏置分类为非线性和线性参数,该方法在非线性和线性参数之间来回迭代。非线性参数通过阻尼高斯牛顿方法更新,线性参数通过线性求解器更新。此外,在高斯牛顿步骤中,针对浅层ReLU神经网络导出了一种特殊形式的高斯牛顿矩阵,并用于有效的迭代。在合理的假设下,证明了相应的线性和非线性步骤中的质量和高斯牛顿矩阵是对称和正定的。因此,SgGN方法自然产生有效的搜索方向,无需像Levenberg-Marquardt方法中的移位那样使用额外的技术来实现高斯牛顿矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值演示,特别是在机器学习中常用的训练算法面对具有不连续性或尖锐转换层的问题时,该方法具有显著的优势。
  • 作者讲解
  • 图表
  • 解决问题
    本文提出了一种基于结构引导的高斯-牛顿方法(SgGN)来解决使用浅层ReLU神经网络的最小二乘问题。
  • 关键思路
    将神经网络的权重和偏置归类为非线性和线性参数,并在非线性和线性参数之间来回迭代更新。
  • 其它亮点
    该方法在具有不连续或尖锐过渡层的函数逼近问题上展示了收敛性和准确性。
  • 相关研究
    最近的相关研究包括“Deep Gauss-Newton Method for Nonlinear Least Squares”和“Gauss-Newton Methods for Efficient Convolutional Neural Network Training”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问