Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance

简介

大型语言模型（LLMs）已经彻底改变了许多研究领域。尽管人们普遍认为微调对于提升LLMs的能力至关重要，但现有的研究表明，在微调过程中存在潜在的冗余性，因此建议仅更新其中的一部分参数。然而，这些方法未能利用任务特定信息来识别训练过程中重要的参数。基于梯度本身包含任务特定数据的信息这一观点，我们提出了Gradient-Mask Tuning（GMT）方法，该方法根据参数的梯度信息有选择地更新参数。具体来说，我们计算梯度的绝对值，并对那些相对较小的梯度值进行掩蔽。我们在各种任务上的实证结果表明，GMT不仅优于传统的微调方法，而且提高了LLM性能的上限。进一步的分析表明，GMT对掩蔽比率不敏感，并且具有与基本SFT相当的计算效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决Fine-tuning中存在的潜在冗余问题，提出了一种新的方法Gradient-Mask Tuning (GMT)，以更好地利用任务特定信息来选择需要更新的参数。
关键思路

GMT方法基于梯度信息来选择需要更新的参数，具有更好的性能和计算效率。
其它亮点

论文通过实验验证了GMT方法的有效性和优越性，证明其在各种任务上的表现优于传统的Fine-tuning方法，并且提高了LLM性能的上限。论文还提出了GMT方法的计算效率与SFT方法相当，并且具有对掩码比率的不敏感性。
相关研究

近期的相关研究包括对Fine-tuning方法的改进，如Adaptive Fine-tuning和Layer-wise Coordination，以及对梯度信息的利用方法，如Gradient Surgery和Layer-wise Relevance Propagation。

Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance

提问交流

提问交流