FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation

简介

本研究提出了一种全二值化大语言模型 (FBI-LLM)，首次展示了如何从头开始训练大规模二值化语言模型（而非像 BitNet b1.58 那样的部分二进制或三进制LLM），以匹配其全精度对应物（例如 FP16 或 BF16）在基于Transformer的LLM中的性能。它通过采用自回归蒸馏（AD）损失来实现，并保持等效的模型尺寸（130M、1.3B、7B）和训练数据量，就像常规LLM预训练一样，同时在困惑度和任务特定效果方面提供了具有竞争力的结果。有趣的是，通过分析训练轨迹，我们发现预训练的权重对于从头开始训练二值化LLM并不是必要的。这项研究鼓励了一种新的计算框架，并可能促进未来专门针对完全1位LLM设计的专用硬件的发展。我们将所有的模型、代码和训练数据集完全公开和透明，以支持进一步的研究（代码：https://github.com/LiqunMa/FBI-LLM。模型：https://huggingface.co/LiqunMa/）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决如何从头开始训练一个大规模的二进制语言模型，并使其达到与全精度模型相当的性能水平的问题。
关键思路

本文提出了一种自回归蒸馏（AD）损失的方法，通过保持等效的模型规模和训练数据量，从而实现了大规模二进制语言模型的训练。值得注意的是，本文发现预训练权重对于从头开始训练二进制语言模型并不是必要的。
其它亮点

本文提出的方法在固定的模型规模和训练数据量下，达到了与全精度模型相当的性能水平。作者还开源了代码和训练数据集，为进一步的研究提供了支持。
相关研究

最近的相关研究包括BitNet b1.58等部分二进制或三进制LLM，以及使用FP16或BF16的全精度LLM。

FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation

提问交流

提问交流