Better Schedules for Low Precision Training of Deep Neural Networks

Machine Learning (2024): 1-19
2024年03月04日
  • 简介
    低精度训练可以显著降低训练深度神经网络(DNNs)的计算开销。虽然存在许多这样的技术,但是循环精度训练(CPT)根据循环时间表动态调整精度,实际上可以提高DNN性能,同时实现了特别出色的训练效率改进。现有的CPT实现采用常见的学习率时间表(例如,周期余弦时间表)进行低精度训练,但没有与其他调度选项进行足够的比较。我们定义了一套多样化的CPT时间表,并分析了它们在各种DNN训练方案中的性能,其中一些在低精度训练文献中尚未探索(例如,使用图神经网络进行节点分类)。通过这些实验,我们发现了另一种CPT时间表,可以进一步提高训练效率和模型性能,并推导出一组选择CPT时间表的最佳实践。此外,我们发现模型性能和训练成本之间存在相关性,并且改变基础CPT时间表可以控制这两个变量之间的权衡。为了解释模型性能和训练成本之间的直接相关性,我们建立了量化训练和关键学习期之间的联系,表明激进的量化是一种学习障碍,可能会永久地损害模型性能。
  • 图表
  • 解决问题
    研究低精度训练对深度神经网络(DNNs)训练效率和性能的影响,以及如何通过循环精度训练(CPT)调整精度来提高训练效率和性能。
  • 关键思路
    通过定义多样的CPT调度方案,发现了一些可以进一步提高训练效率和模型性能的替代CPT调度方案,并提出了选择CPT调度方案的最佳实践。同时发现模型性能和训练成本之间存在直接的相关性,并探讨了量化训练和关键学习期之间的联系。
  • 其它亮点
    论文设计了多组实验,探讨了不同的DNN训练方案和数据集,发现了一些新的CPT调度方案,并提出了选择CPT调度方案的最佳实践。同时,探讨了模型性能和训练成本之间的直接相关性,并提出了量化训练和关键学习期之间的联系。
  • 相关研究
    相关论文包括:1. 'Mixed Precision Training' (Micikevicius et al., 2017); 2. 'Loss-aware Weight Quantization of Deep Networks' (Zhou et al., 2017); 3. 'Training Deep Neural Networks with 8-bit Floating Point Numbers' (Jacob et al., 2018)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论