Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox

2024年06月15日
  • 简介
    大型语言模型(LLMs)在多种场景下取得了令人兴奋的进展,但巨大的计算需求阻碍了它们在许多实际应用中的部署。量化作为减少内存占用和推理成本的有效手段,也面临着低位宽下性能下降的挑战。了解量化对LLM能力,尤其是泛化能力的影响至关重要。然而,社区的主要关注点仍然集中在量化的算法和模型上,对于量化模型是否能保持LLMs强大的泛化能力关注不足。在这项工作中,我们通过提供一个全面的基准套件来填补这一空白,包括一个评估系统、详细的分析和一个通用的工具箱。具体而言,基于LLM量化中占主导地位的流程,我们主要探讨了校准数据分布对量化LLMs泛化能力的影响,并使用两个主要场景中的40多个数据集进行基准测试。基于这个基准测试,我们使用两个知名的LLMs(英文和中文)和四个量化算法进行了广泛的实验,深入研究了这个主题,得出了一些反直觉和有价值的发现,例如,使用与测试数据相同分布的校准集量化的模型不一定是最优的。此外,为了促进未来的研究,我们还发布了一个模块化设计的工具箱,将整个流程分解成几个独立的组件,例如基础LLM模块、数据集模块、量化器模块等,并允许后续研究人员通过简单的配置轻松组装他们的方法。我们的基准套件可在https://github.com/TsingmaoAI/MI-optimize上公开获取。
  • 图表
  • 解决问题
    该论文旨在探讨量化对大型语言模型(LLMs)泛化能力的影响,提供了一个全面的基准套件,包括评估系统、详细分析和通用工具箱。
  • 关键思路
    论文主要探讨量化数据分布对量化LLMs泛化能力的影响,并使用40多个数据集进行了广泛的实验,得出了一些有价值的发现。
  • 其它亮点
    论文提供了一个全面的基准套件,包括评估系统、详细分析和通用工具箱。使用两种流行的LLMs(英文和中文)和四种量化算法进行了广泛的实验。研究发现,使用与测试数据相同分布的校准集量化的模型不一定是最优的。研究还发布了一个模块化设计的工具箱,方便后续研究人员通过简单的配置组装他们的方法。
  • 相关研究
    最近的相关研究包括《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》、《Post-Training 4-bit Quantization of Convolutional Networks for Rapid-Deployment》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问