- 简介压缩高性能的大型语言模型(LLM)已成为资源高效推理的一种受欢迎的策略。尽管最先进的压缩方法在保留良好任务性能方面取得了令人印象深刻的进展,但在安全性和可信度方面的潜在风险却很大程度上被忽视了。本研究对三种领先的LLM使用五种最先进的压缩技术在八个可信度维度上进行了首次全面评估。我们的实验突出了压缩和可信度之间错综复杂的相互作用,揭示了一些有趣的模式。我们发现,在同时实现效率和可信度方面,量化目前比修剪更有效的方法。例如,一个4位量化模型保留了其原始对应物的可信度,但模型修剪会显著降低可信度,即使在50%稀疏度下也是如此。此外,在适度的位数范围内使用量化可能意外地提高某些可信度维度,如道德和公平性。相反,将量化极端压缩到非常低的位级(3位)往往会显著降低可信度。这种增加的风险不仅仅可以通过单纯地观察良好性能来发现,因此需要在实践中进行全面的可信度评估。这些发现最终汇总为在LLM中同时实现高效用、效率和可信度的实用建议。模型和代码可在https://decoding-comp-trust.github.io/获得。
- 图表
- 解决问题本论文旨在探究当前流行的大型语言模型压缩方法对模型可信度和安全性的影响,提出同时实现高效性和可信度的解决方案。
- 关键思路本论文通过对三种领先的大型语言模型和五种流行的压缩技术在八个可信度维度上进行全面评估,发现量化是比剪枝更有效的压缩方法,4位量化模型可以保持其原始模型的可信度,而模型剪枝会显著降低可信度。同时,适度的量化还可以意外地提高某些可信度维度,如道德和公正性。
- 其它亮点本论文的实验设计详尽,使用了多个数据集,并提供了开源代码。值得深入研究的是,该论文发现了压缩对可信度的影响,揭示了可信度和效能之间的微妙平衡,提出了同时实现高效性和可信度的实用建议。
- 最近的相关研究包括《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》和《Scalable and Efficient Compressed Word Embeddings》等。
沙发等你来抢
去评论
评论
沙发等你来抢