- 简介随着领域特定模型的大量出现,模型合并已经成为一组技术,将多个模型的能力合并成一个可以多任务处理而无需额外训练成本的模型。在本文中,我们提出了一种新的模型合并技术,Drop and rEscaLe via sampLing with mAgnitude(DELLA-Merging),它采用了一种新颖的修剪技术MAGPRUNE,相对于DARE和TIES,MAGPRUNE具有显著优势。MAGPRUNE首先按照参数大小对参数进行排序,并为排名较低的参数分配更高的dropout概率(p),对应于较低的大小。为了近似原始嵌入,MAGPRUNE对通过1 /(1-p)的随机丢弃而幸存下来的参数进行缩放操作。在考虑合并的三个不同专家模型(LM,Math,Code)和相应的基准数据集(AlpacaEval,GSM8K,MBPP)上,DELLA相对于采用增量参数修剪的基准方法(相对于TIES改善了3.6个点,相对于DARE改善了1.2个点)和相对于没有修剪的基准线(TA)改善了11.1个点。我们在https://github.com/declare-lab/della上发布了源代码。
- 图表
- 解决问题本文旨在提出一种新的模型合并技术,名为DELLA-Merging,以解决多模型合并的问题。同时,本文试图验证MAGPRUNE剪枝技术在模型合并中的有效性。
- 关键思路DELLA-Merging采用了一种新的剪枝技术MAGPRUNE,该技术首先按照参数的大小对其进行排序,并为排名较低的参数分配更高的dropout概率。然后,通过对幸存的参数进行缩放操作来近似原始嵌入。DELLA-Merging相比于基于增量参数剪枝的基线方法,取得了更好的性能。
- 其它亮点本文在三个不同的专家模型和相应的基准数据集上进行了实验,展示了DELLA-Merging相比于基线方法的平均改进2.4个点(相对于TIES的改进3.6个点,相对于DARE的改进1.2个点),以及相对于无剪枝基线的11.1个点的改进。此外,本文还公开了源代码。
- 最近在多模型合并领域,还有一些相关的研究,例如《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》、《Learning Multiple Visual Domains with Residual Adapter》等。
沙发等你来抢
去评论
评论
沙发等你来抢