- 简介当使用量化等技术压缩大型语言模型(LLMs)时,证明这些技术的有效性的主要方法是通过在各种基准测试中测量模型的准确性。如果基线模型和压缩模型的准确性相近,就认为质量没有明显下降。然而,即使基线模型和压缩模型的准确性相似,我们也观察到翻转现象,即答案从正确到错误或者相反的比例发生变化。我们对多种压缩技术、模型和数据集的度量进行了详细研究,并展示了即使准确性相似,压缩模型对最终用户的行为通常与基线模型显著不同。我们进一步使用MT-Bench定性和定量评估压缩模型,并展示压缩模型在这个自由生成任务中明显劣于基线模型。因此,我们认为压缩技术也应该使用距离度量进行评估。我们提出了两个这样的度量,KL散度和翻转,并展示它们具有良好的相关性。
-
- 图表
- 解决问题压缩大型语言模型时,即使准确度相似,也会出现答案从正确到错误的翻转现象。本文试图解决这个问题,提出使用距离度量来评估压缩技术。
- 关键思路本文提出使用KL散度和翻转率两个距离度量来评估压缩技术,这两个度量与用户体验更相关。
- 其它亮点本文对多种压缩技术、模型和数据集进行了详细研究,发现压缩模型的行为常常与基准模型存在明显差异;使用MT-Bench对压缩模型进行了定量和定性评估,结果显示压缩模型在生成任务上的表现显著不如基准模型。
- 相关研究包括使用不同的度量方法来评估压缩模型的质量,以及使用不同的压缩技术来提高模型效率。相关论文包括“Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference”和“Training Compact Transformers for Long-Document Question Answering”。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流