Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

2024年07月17日
  • 简介
    后训练量化是解决LLM推理中与内存有关的瓶颈的主要方法,但不幸的是,在4位以下精度下,它会遭受显著的性能下降。另一种方法是直接在低位宽(例如二进制或三进制模型)上训练压缩模型。然而,这种模型的性能、训练动态和扩展趋势尚不为人所知。为了解决这个问题,我们训练并公开发布Spectra LLM套件,包括54个语言模型,参数范围从99M到3.9B,训练了300B个标记。Spectra包括FloatLM、后训练量化的QuantLM(3、4、6和8位)和三进制LLM(TriLM)——我们改进的三进制语言建模架构,明显优于先前提出的相同位数(比特)的三进制模型,在规模上与半精度模型相匹配。例如,TriLM 3.9B(按位)比半精度FloatLM 830M更小,但在常识推理和知识基准测试方面与半精度FloatLM 3.9B相匹配。然而,TriLM 3.9B的毒性和刻板印象与大小为其6倍的FloatLM 3.9B相同。此外,TriLM 3.9B在验证集和基于Web的语料库中的困惑度上落后于FloatLM,但在Lambada和PennTreeBank等噪声较小的数据集上表现更好。为了增强对低位宽模型的理解,我们发布了Spectra套件的500多个中间检查点。GitHub链接为\href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}。
  • 图表
  • 解决问题
    论文旨在探讨低比特精度下的语言模型(LLM)的性能问题,并提出一种新的解决方案。
  • 关键思路
    论文提出了直接训练低比特精度模型的方法,并提出了一种新的三元语言建模(TriLM)架构,该架构在相同比特数下优于先前提出的三元模型。
  • 其它亮点
    论文开源了包括54个语言模型在内的Spectra LLM套件,并提供了500多个中间检查点以帮助研究低比特精度模型。TriLM在常识推理和知识基准测试中与半精度模型相匹配,但与半精度模型相比在验证集和网络语料库上表现不佳。
  • 相关研究
    最近的相关研究包括使用量化技术来优化LLM性能的研究,以及使用低比特精度模型进行自然语言处理的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论