- 简介量化感知训练面临一个基本挑战:量化函数的导数(如舍入)几乎在任何地方都是零,其他地方不存在。已经提出了各种可微分逼近量化函数的方法来解决这个问题。在本文中,我们证明当学习率足够小时,一大类权重梯度估计器等价于直通估计器(STE)。具体来说,在SGD中交换STE并调整权重初始化和学习率后,模型的训练方式几乎与原始梯度估计器相同。此外,我们还表明,对于像Adam这样的自适应学习率算法,可以在不修改权重初始化和学习率的情况下看到相同的结果。我们在实验中展示了这些结果对于在MNIST数据集上训练的小型卷积模型和在ImageNet上训练的ResNet50模型都成立。
- 图表
- 解决问题论文旨在解决量化感知训练中导数计算困难的问题,提出了一种可微分的量化函数逼近方法。同时,论文试图验证在学习率足够小的情况下,大部分权重梯度估计器都等价于直通估计器(STE)。
- 关键思路论文提出了一种可微分的量化函数逼近方法,通过将STE替换为大部分权重梯度估计器,并调整权重初始化和学习率,使得模型的训练与原始梯度估计器相似。论文还证明,对于像Adam这样的自适应学习率算法,不需要对权重初始化和学习率进行任何修改,也可以得到相同的结果。
- 其它亮点论文的实验结果表明,该方法在小型卷积模型和ResNet50模型上都能有效地提高模型的性能。此外,论文还开源了实验代码,方便其他研究者进行复现和扩展。
- 在量化感知训练领域,已经有一些相关的研究,如QNNPACK、QAT等。
沙发等你来抢
去评论
评论
沙发等你来抢