BitNet a4.8: 4-bit Activations for 1-bit LLMs

简介

最近关于1位大型语言模型（LLM）的研究，如BitNet b1.58，为在保持性能的同时降低LLM的推理成本提供了一个有前景的方向。在这项工作中，我们引入了BitNet a4.8，实现了1位LLM的4位激活。BitNet a4.8采用了一种混合量化和稀疏化策略，以减轻异常通道引入的量化误差。具体来说，我们在注意力层和前馈网络层的输入中使用4位激活，同时对中间状态进行稀疏化处理，随后进行8位量化。大量实验表明，BitNet a4.8在训练成本相当的情况下，性能与BitNet b1.58相当，同时通过启用4位（INT4/FP4）内核，推理速度更快。此外，BitNet a4.8仅激活55%的参数，并支持3位KV缓存，进一步提高了大规模LLM部署和推理的效率。
图表
解决问题

论文试图通过引入4位激活的1位大语言模型（LLM），即BitNet a4.8，来解决现有1位LLM在推理成本和性能之间的权衡问题。这是一个重要的问题，因为降低推理成本可以显著提高大规模LLM的实际应用效率。
关键思路

论文的关键思路是采用混合量化和稀疏化策略，利用4位激活处理注意力和前馈网络层的输入，同时对中间状态进行稀疏化处理并使用8位量化。这种策略旨在减少由异常通道引入的量化误差，从而在保持性能的同时降低推理成本。相比现有的1位LLM，这种方法不仅提高了推理速度，还减少了参数激活量和支持3位KV缓存。
其它亮点

论文通过广泛的实验验证了BitNet a4.8在性能上与BitNet b1.58相当，但推理速度更快，并且能够支持4位（INT4/FP4）内核。此外，BitNet a4.8仅激活55%的参数，并支持3位KV缓存，进一步提升了大规模LLM部署和推理的效率。实验使用了多个基准数据集，并且代码已经开源，为后续研究提供了基础。
相关研究

近期在这个领域中，还有其他相关研究，例如： - 'Q-LSTM: Quantized Long Short-Term Memory'，探讨了量化技术在LSTM模型中的应用。 - 'Sparse Transformer: Efficiently Handling Long Sequences'，研究了稀疏化技术在Transformer模型中的应用。 - 'Low-Precision Integer Quantization for Transformer Models'，探讨了低精度整数量化在Transformer模型中的效果。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论