Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox

向作者提问

NEW

简介

大型语言模型（LLMs）在多种场景下取得了令人兴奋的进展，但巨大的计算需求阻碍了它们在许多实际应用中的部署。量化作为减少内存占用和推理成本的有效手段，也面临着低位宽下性能下降的挑战。了解量化对LLM能力，尤其是泛化能力的影响至关重要。然而，社区的主要关注点仍然集中在量化的算法和模型上，对于量化模型是否能保持LLMs强大的泛化能力关注不足。在这项工作中，我们通过提供一个全面的基准套件来填补这一空白，包括一个评估系统、详细的分析和一个通用的工具箱。具体而言，基于LLM量化中占主导地位的流程，我们主要探讨了校准数据分布对量化LLMs泛化能力的影响，并使用两个主要场景中的40多个数据集进行基准测试。基于这个基准测试，我们使用两个知名的LLMs（英文和中文）和四个量化算法进行了广泛的实验，深入研究了这个主题，得出了一些反直觉和有价值的发现，例如，使用与测试数据相同分布的校准集量化的模型不一定是最优的。此外，为了促进未来的研究，我们还发布了一个模块化设计的工具箱，将整个流程分解成几个独立的组件，例如基础LLM模块、数据集模块、量化器模块等，并允许后续研究人员通过简单的配置轻松组装他们的方法。我们的基准套件可在https://github.com/TsingmaoAI/MI-optimize上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在探讨量化对大型语言模型（LLMs）泛化能力的影响，提供了一个全面的基准套件，包括评估系统、详细分析和通用工具箱。
关键思路

论文主要探讨量化数据分布对量化LLMs泛化能力的影响，并使用40多个数据集进行了广泛的实验，得出了一些有价值的发现。
其它亮点

论文提供了一个全面的基准套件，包括评估系统、详细分析和通用工具箱。使用两种流行的LLMs（英文和中文）和四种量化算法进行了广泛的实验。研究发现，使用与测试数据相同分布的校准集量化的模型不一定是最优的。研究还发布了一个模块化设计的工具箱，方便后续研究人员通过简单的配置组装他们的方法。
相关研究

最近的相关研究包括《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》、《Post-Training 4-bit Quantization of Convolutional Networks for Rapid-Deployment》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问