One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments

2024年05月30日
  • 简介
    大型语言模型(LLMs)发展迅速,但面临着巨大的内存需求。虽然量化已经显示出对LLMs有帮助,但目前的方法通常需要长时间的训练来缓解由于量化损失而导致的性能下降。然而,将LLMs部署到具有不同资源限制的各种场景中,例如服务器和个人计算机,需要针对每个应用程序进行重复训练,这加剧了长时间训练的问题。因此,训练一次适用于所有(OFA)的超级网络,能够通过一次训练产生多样化的最优子网,具有优势。然而,当前语言模型的规模妨碍了效率,并放大了子网之间权重共享的干扰。我们首次尝试将一次适用于所有的框架扩展到大型语言模型。具体来说,我们解耦共享权重以消除干扰,并引入低秩适配器以提高训练效率。此外,我们观察到传统均匀采样的训练资源分配不平衡。引入非参数调度器来调整每个量化配置的采样率,实现在具有不同需求的子网之间更平衡的分配。我们在LLaMA2家族上验证了这种方法,并通过下游评估证实了我们在显著减少部署时间的同时保持高性能的能力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图通过一次训练生成一个能够适用于不同资源约束的场景的超网络,以减少LLMs在不同应用中的重复训练的问题。同时,为了应对LLMs的规模和权重共享带来的干扰,论文提出了一种新的解耦共享权重的方法。
  • 关键思路
    本论文的关键思路是通过一次训练生成一个适用于不同资源约束的场景的超网络,并解耦共享权重以减少干扰。同时,为了提高训练效率,还引入了低秩适配器和非参数调度器。
  • 其它亮点
    本论文的实验验证了该方法能够在不降低性能的情况下显著减少部署时间。实验使用了LLaMA2数据集,并且开源了代码。该方法的亮点包括解耦共享权重以减少干扰、引入低秩适配器提高训练效率、使用非参数调度器实现更平衡的资源分配等。
  • 相关研究
    最近在这个领域中,也有其他研究关注LLMs的训练效率和资源约束问题。例如,有研究使用模型剪枝和蒸馏来减少LLMs的规模。还有研究使用了不同的训练策略和优化算法来提高训练效率。相关的论文包括《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《Dynamic Computation Adaptation for Efficient Natural Language Processing》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问