The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

2024年02月27日
  • 简介
    最近的研究,如BitNet,为一位1比特的大型语言模型(LLMs)开启了一个新时代。在本研究中,我们介绍了一个1比特LLM变体,即BitNet b1.58,其中LLM的每个单一参数(或权重)都是三进制{-1、0、1}。在模型大小和训练标记方面,它与全精度(即FP16或BF16)Transformer LLM相匹配,而在延迟、内存、吞吐量和能耗方面则显著更具成本效益。更为深刻的是,1.58比特的LLM定义了一种新的缩放定律和训练新一代既高性能又具有成本效益的LLMs的方法。此外,它还启用了一种新的计算范式,并为设计特定于1比特LLMs的硬件打开了大门。
  • 图表
  • 解决问题
    论文介绍了一种新型的1-bit Large Language Models (LLMs) BitNet b1.58,旨在提高LLMs的性能并降低成本。同时,还探索了1-bit LLMs的新的计算范式和硬件设计方案。
  • 关键思路
    BitNet b1.58是一种1-bit LLMs的变体,其中每个参数都是三值{-1, 0, 1}。该模型在模型大小和训练令牌方面与全精度Transformer LLMs相匹配,但在延迟、内存、吞吐量和能耗方面更具成本效益。
  • 其它亮点
    论文提出了一种新的1-bit LLMs的解决方案,能够提高性能并降低成本。实验结果表明,BitNet b1.58与全精度Transformer LLMs具有相当的性能,但具有更低的成本。论文还探索了1-bit LLMs的新的计算范式和硬件设计方案。
  • 相关研究
    近年来,研究人员已经提出了许多关于LLMs的研究,如GPT-3、T5等。同时,也有一些关于1-bit神经网络的研究,如XNOR-Net、DoReFa-Net等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论