- 简介深度学习计算密集,主要集中在降低算术复杂度,特别是数据移动主导的能源消耗。虽然现有文献强调推断,但训练需要更多资源。本文提出了一种新的数学原理,引入布尔变量的概念,使由布尔权重和输入构成的神经元可以在布尔域中高效地进行训练,而不是使用梯度下降和实数算术。我们探讨了其收敛性,进行了广泛的实验基准测试,并通过考虑芯片架构、存储器层次结构、数据流和算术精度提供了一致的复杂度评估。我们的方法在ImageNet分类中实现了基准全精度准确率,并在语义分割方面超越了最先进的结果,在图像超分辨率和基于Transformer的自然语言理解方面表现显著。此外,它显著降低了训练和推断过程中的能源消耗。
-
- 图表
- 解决问题本论文旨在通过引入布尔变化的概念,提出一种新的数学原则,使用布尔逻辑而不是梯度下降和实数算术,在布尔域中高效地训练由布尔权重和输入构成的神经元,从而解决深度学习中训练过程的计算密集性和能耗问题。
- 关键思路论文的关键思路是使用布尔逻辑代替传统的梯度下降和实数算术,在布尔域中训练神经元。这种方法通过引入布尔变化的概念,大大降低了训练和推理过程中的能耗,并在多个任务上取得了和全精度模型相当的准确率。
- 其它亮点论文在ImageNet分类、语义分割、图像超分辨率和基于Transformer的自然语言理解任务上进行了实验,并取得了令人瞩目的结果。此外,论文还考虑了芯片架构、内存层次结构、数据流和算术精度等多个因素的复杂度评估。论文的方法可以在训练和推理阶段均显著降低能耗。
- 在最近的相关研究中,一些学者也尝试在神经网络中使用布尔权重。例如,文献[1]提出了一种基于二元神经网络的方法,文献[2]则提出了一种基于门控形式的二元卷积神经网络。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流