Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

简介

后训练量化是解决LLM推理中与内存有关的瓶颈的主要方法，但不幸的是，在4位以下精度下，它会遭受显著的性能下降。另一种方法是直接在低位宽（例如二进制或三进制模型）上训练压缩模型。然而，这种模型的性能、训练动态和扩展趋势尚不为人所知。为了解决这个问题，我们训练并公开发布Spectra LLM套件，包括54个语言模型，参数范围从99M到3.9B，训练了300B个标记。Spectra包括FloatLM、后训练量化的QuantLM（3、4、6和8位）和三进制LLM（TriLM）——我们改进的三进制语言建模架构，明显优于先前提出的相同位数（比特）的三进制模型，在规模上与半精度模型相匹配。例如，TriLM 3.9B（按位）比半精度FloatLM 830M更小，但在常识推理和知识基准测试方面与半精度FloatLM 3.9B相匹配。然而，TriLM 3.9B的毒性和刻板印象与大小为其6倍的FloatLM 3.9B相同。此外，TriLM 3.9B在验证集和基于Web的语料库中的困惑度上落后于FloatLM，但在Lambada和PennTreeBank等噪声较小的数据集上表现更好。为了增强对低位宽模型的理解，我们发布了Spectra套件的500多个中间检查点。GitHub链接为\href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}。
图表
解决问题

论文旨在探讨低比特精度下的语言模型（LLM）的性能问题，并提出一种新的解决方案。
关键思路

论文提出了直接训练低比特精度模型的方法，并提出了一种新的三元语言建模（TriLM）架构，该架构在相同比特数下优于先前提出的三元模型。
其它亮点

论文开源了包括54个语言模型在内的Spectra LLM套件，并提供了500多个中间检查点以帮助研究低比特精度模型。TriLM在常识推理和知识基准测试中与半精度模型相匹配，但与半精度模型相比在验证集和网络语料库上表现不佳。
相关研究

最近的相关研究包括使用量化技术来优化LLM性能的研究，以及使用低比特精度模型进行自然语言处理的研究。

Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

评论