Scaling Sparse Fine-Tuning to Large Language Models

简介

大型语言模型（LLMs）由于参数数量庞大，很难进行完全微调（例如使用指令或人工反馈）。一系列参数高效的稀疏微调方法在性能方面已经被证明很有前途，但它们的内存需求与LLMs的大小成比例增加。在本文中，我们将稀疏微调扩展到像LLaMA 27B和13B这样的最先进的LLMs。我们提出了SpIEL，这是一种新颖的稀疏微调方法，为了达到所需的密度水平，它维护一组参数索引及其相对于预训练值的增量数组。它迭代地进行以下步骤：（a）更新活动增量，（b）修剪索引（基于它们增量的变化幅度）和（c）重生索引。对于重生，我们探讨了两个基于少数候选参数的累积梯度或使用高效SM3优化器估计的近似动量的标准。我们在标准数据集混合上进行了LLMs的指令微调实验，发现SpIEL在性能方面通常优于流行的参数高效微调方法（如LoRA），在运行时间方面相当。我们还展示了SpIEL与量化和高效优化器兼容，以便扩展到更大的模型大小。我们在https://github.com/AlanAnsell/peft上发布了SpIEL的代码，以及在https://github.com/ducdauge/sft-llm上发布了指令微调实验的代码。
解决问题

本论文旨在解决大型语言模型（LLMs）的稀疏微调问题，提出了一种新的稀疏微调方法SpIEL，并验证其在指令微调LLMs上的有效性。
关键思路

SpIEL方法通过维护参数索引数组和相对于预训练值的参数增量，实现了对LLMs的稀疏微调。其通过更新活动增量、修剪索引和重生索引三个步骤来实现微调。其中，重生索引的标准基于候选参数的梯度累积或使用高效的SM3优化器估计的近似动量。该方法在性能上优于LoRA等流行的参数高效微调方法，并且与量化和高效优化器兼容。
其它亮点

论文使用了标准数据集混合进行了指令微调LLMs的实验，并证明SpIEL方法在性能上通常优于LoRA等方法，而在运行时间上相当。论文还开源了SpIEL和指令微调实验的代码。值得进一步研究的是，如何进一步扩展该方法以适应越来越大的模型大小。
相关研究

与本论文相关的最新研究包括：LoRA、SparCML和LTH等稀疏微调方法。

Scaling Sparse Fine-Tuning to Large Language Models

评论