- 简介最近的模型融合方法表明,可以将专门针对不同任务的完全微调模型的参数合并到一个模型中,该模型能够在不重新训练的情况下解决所有任务。然而,这种成功在合并LoRA微调模型时并不容易转移。我们研究了这一现象,并观察到LoRA微调模型的权重相比完全微调模型的权重显示出较低的一致性。我们假设提高这种一致性是获得更好的LoRA模型融合的关键,并提出了KnOTS来解决这个问题。KnOTS使用奇异值分解(SVD)将不同LoRA模型的权重共同转换到一个对齐的空间,在这个空间中可以应用现有的融合方法。此外,我们引入了一个新的基准测试,明确评估融合后的模型是否为通用模型。值得注意的是,KnOTS在多个视觉和语言基准测试中,包括我们的新设置,始终将LoRA融合性能提高了多达4.3%。我们已将代码发布在:https://github.com/gstoica27/KnOTS。
- 图表
- 解决问题该论文试图解决LoRA微调模型合并时性能不佳的问题,尤其是在与完全微调模型合并的成功案例对比下。这是一个相对较新的问题,因为LoRA技术本身是近期才在社区中得到广泛应用。
- 关键思路论文的关键思路是通过引入KnOTS方法来改善LoRA微调模型之间的权重对齐度。KnOTS利用奇异值分解(SVD)将不同LoRA模型的权重转换到一个对齐的空间中,从而使得现有的合并方法能够更有效地应用于这些模型。这一思路的新颖之处在于它专门针对LoRA模型的特性,提出了一个系统的方法来提高模型合并的质量。
- 其它亮点论文通过一系列实验验证了KnOTS的有效性,包括视觉和语言任务的多个基准测试,并且提出了一种新的评估合并模型泛化能力的基准。实验结果显示,KnOTS可以显著提高LoRA模型合并的性能,最高可提升4.3%。此外,作者开源了实现代码,为后续研究提供了便利。未来的研究可以进一步探索如何优化KnOTS方法,以适应更多类型的任务和模型架构。
- 近年来,关于模型合并的研究逐渐增多。例如,《Parameter-Efficient Transfer Learning for NLP》探讨了参数高效的迁移学习方法;《Leveraging Pre-trained Checkpoints for Efficient Fine-tuning》研究了如何利用预训练模型进行高效微调;《Merging Large Language Models with Minimal Retraining》则关注于如何最小化重新训练的情况下合并大型语言模型。这些研究为理解模型合并的机制提供了重要基础,而KnOTS则是针对LoRA模型的一个具体解决方案。
沙发等你来抢
去评论
评论
沙发等你来抢