Geometric sparsification in recurrent neural networks

2024年06月10日
  • 简介
    一种减少运行大型神经模型计算成本的常见技术是稀疏化或训练期间删除神经连接。稀疏模型能够保持最先进模型的高准确性,同时以更为简洁的模型成本运行。然而,稀疏结构的基础结构并不为人们所了解,并且在不同的训练模型和稀疏化方案之间也不一致。本文提出了一种新的循环神经网络(RNNs)稀疏化技术,称为模数正则化,与幅值修剪相结合。模数正则化利用循环结构引入的动力学系统,在RNN的隐藏状态神经元之间引入几何关系。通过将我们的正则化项明确地定义为几何学,我们提供了我们的神经网络所需的稀疏结构的首个先验描述。我们验证了我们的方案在导航和自然语言处理的RNN中的有效性。导航是一项结构上的几何任务,已知存在模数空间,我们展示了只有当系数按照合适的模数空间选择时,正则化才能用于达到90%的稀疏度,同时保持模型性能。然而,自然语言处理中没有已知的模数空间进行计算。尽管如此,我们展示了模数正则化引入了更稳定的循环神经网络,具有多种模数正则化器,并且在98%的稀疏度下实现高保真度模型。
  • 图表
  • 解决问题
    提出了一种新的稀疏化循环神经网络的方法,旨在解决大型神经网络计算成本高的问题。
  • 关键思路
    该论文提出了一种称为模数正则化的方法,结合幅度剪枝来稀疏化循环神经网络。该方法利用循环结构引入的动态系统,在隐藏状态中的神经元之间建立几何关系,从而提供了首个关于期望稀疏体系结构的先验描述。
  • 其它亮点
    通过在导航和自然语言处理的RNN中验证该方法的有效性,发现当系数符合适当的模数空间时,可以实现90%的稀疏度同时保持模型性能。在自然语言处理方面,该方法可以通过多种模数正则化器实现更稳定的循环神经网络,并在98%的稀疏度下实现高保真度模型。
  • 相关研究
    在稀疏化神经网络方面,最近的相关研究包括:《Learning Sparse Neural Networks through L0 regularization》和《Sparse Networks from Scratch: Faster Training without Losing Performance》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论