Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

2024年06月18日
  • 简介
    二值化是一种将权重参数转换为二进制值的有效策略,可以缩小大型语言模型(LLMs)的大小。然而,典型的二值化技术会显著降低LLMs的语言效果。为了解决这个问题,我们引入了一种新的二值化技术,称为混合比例尺(BinaryMoS)。与传统方法不同,BinaryMoS采用多个二进制权重的比例尺专家,动态地合并这些专家以适应性地生成比例尺因子。这种标记自适应方法通过使二值化的LLMs能够进行上下文调整来提高表示能力。此外,由于这种自适应过程只涉及比例尺因子而不是整个权重矩阵,因此BinaryMoS保持了与传统静态二值化方法类似的压缩效率。我们的实验结果表明,BinaryMoS在各种自然语言处理任务中优于传统的二值化技术,甚至优于2位量化方法,同时保持与静态二值化技术相似的模型大小。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决大型语言模型(LLM)二值化技术在减小模型大小的同时降低语言效果的问题。
  • 关键思路
    文章提出了一种新的二值化技术BinaryMoS,它使用多个缩放专家来为二进制权重动态生成缩放因子,从而适应性地调整二进制权重的值,提高了二值化LLMs的表示能力。
  • 其它亮点
    BinaryMoS在各种自然语言处理任务中表现优异,甚至优于2位量化方法,同时保持与静态二值化方法相似的压缩效率。实验使用了多个数据集,开源了代码。
  • 相关研究
    相关研究包括传统的二值化技术以及2位量化方法,如BertQuant、Q8bert等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问