ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization

向作者提问

NEW

简介

实现量化模型大小和准确性之间最佳平衡的最优位宽一直是持续争论的话题。尽管一些人提倡使用4位量化，另一些人则认为1.58位能带来更优的结果。然而，由于缺乏统一的框架来处理不同的位宽，这些结论相对不够稳固。我们提出了ParetoQ，这是第一个统一的框架，能够对1位、1.58位、2位、3位和4位量化设置进行严格的比较。我们的研究发现，在2位和3位之间存在显著的学习转变：对于3位及以上的量化，微调后的模型保持接近其原始预训练分布；而对于2位及以下的网络学习，表示方式发生了显著变化。通过优化训练方案和改进量化函数，ParetoQ超越了所有针对特定位宽设计的先前方法。尤为值得注意的是，我们的ParetoQ三元6亿参数模型在准确性上甚至超过了之前的最先进（SoTA）三元30亿参数模型，而使用的参数量仅为后者的五分之一。广泛的实验表明，三元、2位和3位量化在大小与准确性之间的权衡中保持了相似的性能，并通常超过4位和二值量化。考虑到硬件限制，2位量化在减少内存占用和加速方面展现出巨大的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决在量化神经网络中，不同位宽（bit-width）对于模型大小和准确率之间的最佳权衡问题。这是一个持续的讨论话题，并非全新的问题，但以往的研究缺乏统一框架来进行严谨比较。
关键思路

ParetoQ提出了首个统一框架，用于系统性地比较1-bit、1.58-bit、2-bit、3-bit和4-bit量化设置的效果。研究发现，在2-bit到3-bit之间存在显著的学习转变：3-bit及以上的模型保持接近预训练分布，而2-bit及以下的模型则发生剧烈变化。这一框架不仅优化了训练方案和量化函数，还超越了先前针对特定位宽的方法。
其它亮点

实验设计详尽，涵盖了多种位宽的量化效果，并通过大量实验验证了2-bit、3-bit和ternary（三值）量化在网络规模与准确度之间的平衡优于其他选择。此外，ParetoQ的一个6亿参数的ternary模型在准确度上超过了之前最好的30亿参数的ternary模型，仅使用了五分之一的参数。值得注意的是，考虑到硬件限制，2-bit量化提供了减少内存占用和加速运算的潜力。代码已开源，便于后续研究。
相关研究

近期相关研究包括对低精度量化（如4-bit或更低）的关注，以及如何最小化量化带来的性能损失。例如，《Low-Precision Integer Networks for Efficient Inference》探讨了整数网络的高效推理；《Bit-Serial Deep Neural Network for Low-Power and High-Speed Recognition Systems》研究了位串行深度神经网络以实现低功耗和高速识别系统。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问