NoProp: Training Neural Networks without Back-propagation or Forward-propagation

2025年03月31日
  • 简介
    传统的深度学习方法需要通过从输出端向每个可学习参数反向传播误差信号,来计算每一层的梯度项。由于神经网络的堆叠结构,其中每一层都基于其下一层的表示构建,这种方法导致了分层的特征表示。模型顶层通常包含更抽象的特征,而底层的特征则相对不那么抽象。与此不同的是,我们提出了一种新的学习方法,称为 NoProp,它既不依赖前向传播也不依赖反向传播。相反,NoProp 从扩散模型和流匹配方法中汲取灵感,让每一层独立学习如何对一个带有噪声的目标进行去噪。我们认为这项工作迈出了引入一类新梯度无关学习方法的第一步,这类方法不学习分层表示——至少不是传统意义上的分层表示。NoProp 需要预先将每一层的表示固定为目标的带噪版本,并学习一个局部去噪过程,该过程可以在推理时被利用。我们在 MNIST、CIFAR-10 和 CIFAR-100 图像分类基准上展示了我们方法的有效性。实验结果表明,NoProp 是一种可行的学习算法,相比其他现有的无反向传播方法,它具有更高的准确性、更易于使用且计算效率更高。通过偏离传统的基于梯度的学习范式,NoProp 改变了网络内部的信用分配方式,从而实现了更高效的分布式学习,并可能影响学习过程的其他特性。
  • 图表
  • 解决问题
    论文试图解决深度学习中依赖于反向传播(Backpropagation)进行梯度计算的问题,探索一种无需梯度的新型学习方法。这是一个相对较新的问题,旨在突破传统基于梯度的学习范式。
  • 关键思路
    论文提出了一种名为NoProp的新方法,灵感来源于扩散模型和流匹配技术。该方法通过让每一层独立学习去噪过程,避免了前向和后向传播的使用。与传统的分层特征表示不同,NoProp不需要构建层次化的抽象特征,而是通过固定每层的目标为噪声版本的数据来实现局部去噪学习。
  • 其它亮点
    论文在MNIST、CIFAR-10和CIFAR-100数据集上验证了NoProp的有效性,并展示了其在准确率、易用性和计算效率上的优势。相比其他无反向传播的方法,NoProp表现更优。此外,这种方法可能促进分布式学习的发展,并改变信用分配机制。遗憾的是,摘要未提及代码是否开源,但值得进一步研究其在更大规模数据集和任务中的表现。
  • 相关研究
    近年来,关于无反向传播或替代反向传播的研究逐渐增多,例如Direct Feedback Alignment (Lillicrap et al., 2016) 和 Equilibrium Propagation (Scellier & Bengio, 2017)。此外,扩散模型的相关研究如Denoising Diffusion Probabilistic Models (Ho et al., 2020) 和 Score Matching 方法也为NoProp提供了理论基础。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论