- 简介后训练量化是解决LLM推理中与内存有关的瓶颈的主要方法,但不幸的是,在4位以下精度下,它会遭受显著的性能下降。另一种方法是直接在低位宽(例如二进制或三进制模型)上训练压缩模型。然而,这种模型的性能、训练动态和扩展趋势尚不为人所知。为了解决这个问题,我们训练并公开发布Spectra LLM套件,包括54个语言模型,参数范围从99M到3.9B,训练了300B个标记。Spectra包括FloatLM、后训练量化的QuantLM(3、4、6和8位)和三进制LLM(TriLM)——我们改进的三进制语言建模架构,明显优于先前提出的相同位数(比特)的三进制模型,在规模上与半精度模型相匹配。例如,TriLM 3.9B(按位)比半精度FloatLM 830M更小,但在常识推理和知识基准测试方面与半精度FloatLM 3.9B相匹配。然而,TriLM 3.9B的毒性和刻板印象与大小为其6倍的FloatLM 3.9B相同。此外,TriLM 3.9B在验证集和基于Web的语料库中的困惑度上落后于FloatLM,但在Lambada和PennTreeBank等噪声较小的数据集上表现更好。为了增强对低位宽模型的理解,我们发布了Spectra套件的500多个中间检查点。GitHub链接为\href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}。
- 图表
- 解决问题论文旨在探讨低比特精度下的语言模型(LLM)的性能问题,并提出一种新的解决方案。
- 关键思路论文提出了直接训练低比特精度模型的方法,并提出了一种新的三元语言建模(TriLM)架构,该架构在相同比特数下优于先前提出的三元模型。
- 其它亮点论文开源了包括54个语言模型在内的Spectra LLM套件,并提供了500多个中间检查点以帮助研究低比特精度模型。TriLM在常识推理和知识基准测试中与半精度模型相匹配,但与半精度模型相比在验证集和网络语料库上表现不佳。
- 最近的相关研究包括使用量化技术来优化LLM性能的研究,以及使用低比特精度模型进行自然语言处理的研究。
沙发等你来抢
去评论
评论
沙发等你来抢