- 简介最近,模型合并技术已经成为将多个单一天赋模型合并成一个多才能模型的解决方案。然而,这个领域的以前尝试要么需要额外的训练或微调过程,要么需要模型具有相同的预训练初始化。在这项工作中,我们确定了先前工作中普遍存在的一个缺点,即权重空间和激活空间中单位相似性的不一致性。为了解决这种不一致性,我们提出了一种创新的模型合并框架,称为双空间约束下的合并(MuDSC)。具体而言,我们提倡在一个统一高相似性的双重空间中探索排列矩阵,通过激活和权重相似性矩阵的线性组合实现。为了增强可用性,我们还包括了适用于组结构的改进,包括多头注意力和组归一化。全面的实验比较表明,MuDSC可以显著提高合并模型的性能,包括各种任务组合和架构。此外,合并模型在多任务损失景观中的可视化显示,MuDSC使合并模型位于重叠段,具有每个任务的统一较低损失。我们的代码可以在https://github.com/zju-vipa/training_free_model_merging上公开获取。
- 图表
- 解决问题本文旨在解决模型合并中的单元相似性在权重空间和激活空间之间的不一致性问题,提出了一种新的模型合并框架MuDSC。
- 关键思路MuDSC框架通过线性组合激活和权重相似度矩阵,探索置于双重空间中单元相似性统一高的置换矩阵,以解决单元相似性不一致的问题。
- 其它亮点本文提出的MuDSC框架可以显著提高合并模型的性能,并且适用于各种任务组合和架构。此外,本文还实现了适用于组结构的Multi-Head Attention和Group Normalization,并在GitHub上公开了代码。
- 在此领域的相关研究中,以往的模型合并方法要么需要额外的训练或微调过程,要么需要模型具有相同的预训练初始化。
沙发等你来抢
去评论
评论
沙发等你来抢