大型语言模型(LLMs)在多种场景下取得了令人兴奋的进展,但巨大的计算需求阻碍了它们在许多实际应用中的部署。量化作为减少内存占用和推理成本的有效手段,也面临着低位宽下性能下降的挑战。了解量化对LLM能力,尤其是泛化能力的影响至关重要。然而,社区的主要关注点仍然集中在量化的算法和模型上,对于量化模型是否能保持LLMs强大的泛化能力关注不足。在这项工作中,我们通过提供一个全面的基准套件来填补这一空白,包括一个评估系统、详细的分析和一个通用的工具箱。具体而言,基于LLM量化中占主导地位的流程,我们主要探讨了校准数据分布对量化LLMs泛化能力的影响,并使用两个主要场景中的40多个数据集进行基准测试。基于这个基准测试,我们使用两个知名的LLMs(英文和中文)和四个量化算法进行了广泛的实验,深入研究了这个主题,得出了一些反直觉和有价值的发现,例如,使用与测试数据相同分布的校准集量化的模型不一定是最优的。此外,为了促进未来的研究,我们还发布了一个模块化设计的工具箱,将整个流程分解成几个独立的组件,例如基础LLM模块、数据集模块、量化器模块等,并允许后续研究人员通过简单的配置轻松组装他们的方法。我们的基准套件可在https://github.com/TsingmaoAI/MI-optimize上公开获取。
提问交流