Scaling Laws for Precision

2024年11月07日
  • 简介
    低精度训练和推理会影响语言模型的质量和成本,但目前的扩展定律并未考虑这一点。在这项工作中,我们制定了适用于训练和推理的“精度感知”扩展定律。我们提出,较低精度的训练会减少模型的“有效参数数量”,使我们能够预测从低精度训练和训练后量化中产生的额外损失。对于推理,我们发现由训练后量化引入的性能下降随着模型训练数据的增加而增加,最终使得额外的预训练数据变得有害。对于训练,我们的扩展定律使我们能够预测具有不同精度部分的模型的损失,并建议以较低精度训练更大规模的模型可能是计算最优的。我们将训练前和训练后的量化扩展定律统一起来,得出了一个单一的功能形式,可以预测在不同精度下训练和推理的退化情况。我们在超过465次预训练运行上进行了拟合,并在最多17亿参数、最多260亿个标记的模型上验证了我们的预测。
  • 作者讲解·3
  • 图表
  • 解决问题
    该论文试图解决低精度训练和推理对语言模型质量和成本的影响问题,并提出了一种新的方法来预测这些影响。这是一个在大规模语言模型优化中逐渐受到关注的问题。
  • 关键思路
    论文的关键思路是开发‘精度感知’的扩展定律,用于预测低精度训练和推理对模型性能的影响。具体来说,论文提出低精度训练会减少模型的‘有效参数数量’,从而可以预测因低精度训练和后训练量化带来的额外损失。这一思路为理解和优化低精度计算环境下的模型提供了新的理论基础。
  • 其它亮点
    论文通过超过465次预训练运行的数据拟合,验证了其提出的扩展定律的有效性。此外,该研究还发现随着训练数据量的增加,后训练量化带来的性能下降会更加显著,甚至可能使增加更多预训练数据变得有害。论文还提出了一个统一的函数形式,能够同时预测训练和推理在不同精度下的性能退化。这些发现对于指导未来的大规模语言模型设计和优化具有重要意义。
  • 相关研究
    近期在这个领域的一些相关研究包括: 1. 'Training Deep Neural Networks with 8-bit Floating Point Numbers' - 这篇论文探讨了使用8位浮点数进行深度神经网络训练的可能性。 2. 'Mixed Precision Training' - 提出了混合精度训练技术,结合高精度和低精度计算以提高训练效率。 3. 'Quantization and Training of Neural Networks for Efficient Inference' - 研究了如何在保持模型性能的同时,通过量化技术提高推理效率。 4. 'Scalable and Sustainable Deep Learning via Randomized Hashing' - 探索了通过随机哈希技术实现可扩展和可持续的深度学习方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问