- 简介大型语言模型(LLMs)已经彻底改变了许多研究领域。尽管人们普遍认为微调对于提升LLMs的能力至关重要,但现有的研究表明,在微调过程中存在潜在的冗余性,因此建议仅更新其中的一部分参数。然而,这些方法未能利用任务特定信息来识别训练过程中重要的参数。基于梯度本身包含任务特定数据的信息这一观点,我们提出了Gradient-Mask Tuning(GMT)方法,该方法根据参数的梯度信息有选择地更新参数。具体来说,我们计算梯度的绝对值,并对那些相对较小的梯度值进行掩蔽。我们在各种任务上的实证结果表明,GMT不仅优于传统的微调方法,而且提高了LLM性能的上限。进一步的分析表明,GMT对掩蔽比率不敏感,并且具有与基本SFT相当的计算效率。
-
- 图表
- 解决问题论文旨在解决Fine-tuning中存在的潜在冗余问题,提出了一种新的方法Gradient-Mask Tuning (GMT),以更好地利用任务特定信息来选择需要更新的参数。
- 关键思路GMT方法基于梯度信息来选择需要更新的参数,具有更好的性能和计算效率。
- 其它亮点论文通过实验验证了GMT方法的有效性和优越性,证明其在各种任务上的表现优于传统的Fine-tuning方法,并且提高了LLM性能的上限。论文还提出了GMT方法的计算效率与SFT方法相当,并且具有对掩码比率的不敏感性。
- 近期的相关研究包括对Fine-tuning方法的改进,如Adaptive Fine-tuning和Layer-wise Coordination,以及对梯度信息的利用方法,如Gradient Surgery和Layer-wise Relevance Propagation。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流