Scaling Sparse Fine-Tuning to Large Language Models

2024年01月29日
  • 简介
    大型语言模型(LLMs)由于参数数量庞大,很难进行完全微调(例如使用指令或人工反馈)。一系列参数高效的稀疏微调方法在性能方面已经被证明很有前途,但它们的内存需求与LLMs的大小成比例增加。在本文中,我们将稀疏微调扩展到像LLaMA 27B和13B这样的最先进的LLMs。我们提出了SpIEL,这是一种新颖的稀疏微调方法,为了达到所需的密度水平,它维护一组参数索引及其相对于预训练值的增量数组。它迭代地进行以下步骤:(a)更新活动增量,(b)修剪索引(基于它们增量的变化幅度)和(c)重生索引。对于重生,我们探讨了两个基于少数候选参数的累积梯度或使用高效SM3优化器估计的近似动量的标准。我们在标准数据集混合上进行了LLMs的指令微调实验,发现SpIEL在性能方面通常优于流行的参数高效微调方法(如LoRA),在运行时间方面相当。我们还展示了SpIEL与量化和高效优化器兼容,以便扩展到更大的模型大小。我们在https://github.com/AlanAnsell/peft上发布了SpIEL的代码,以及在https://github.com/ducdauge/sft-llm上发布了指令微调实验的代码。
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)的稀疏微调问题,提出了一种新的稀疏微调方法SpIEL,并验证其在指令微调LLMs上的有效性。
  • 关键思路
    SpIEL方法通过维护参数索引数组和相对于预训练值的参数增量,实现了对LLMs的稀疏微调。其通过更新活动增量、修剪索引和重生索引三个步骤来实现微调。其中,重生索引的标准基于候选参数的梯度累积或使用高效的SM3优化器估计的近似动量。该方法在性能上优于LoRA等流行的参数高效微调方法,并且与量化和高效优化器兼容。
  • 其它亮点
    论文使用了标准数据集混合进行了指令微调LLMs的实验,并证明SpIEL方法在性能上通常优于LoRA等方法,而在运行时间上相当。论文还开源了SpIEL和指令微调实验的代码。值得进一步研究的是,如何进一步扩展该方法以适应越来越大的模型大小。
  • 相关研究
    与本论文相关的最新研究包括:LoRA、SparCML和LTH等稀疏微调方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论