- 简介本文提出了一种新颖的大型语言模型合并方法,通过黑盒多目标优化算法实现。模型合并的目标是将多个在不同任务上表现优异的模型合并成一个单一的模型,超越任何单个源模型。然而,模型合并面临两个重大挑战:首先,现有方法严重依赖于人类直觉和定制策略。其次,在合并过程中通常会出现参数冲突,虽然类似DARE [1]的方法可以缓解这个问题,但它们往往会随机丢弃参数,可能会丢失重要的delta参数。为了解决这些挑战,我们提出了MM-MO方法,利用多目标优化算法自动搜索最佳合并配置,消除了人类直觉的需要。在配置搜索过程中,我们使用多个不同任务的估计性能作为优化目标,以缓解不同源模型之间的参数冲突,同时不失关键的delta参数。我们进行了与其他主流模型合并方法的比较实验,证明我们的方法始终优于它们。此外,我们的实验表明,即使是未明确作为优化目标的任务类型也显示出性能改进,表明我们的方法增强了模型的整体潜力,而不仅仅是过度拟合特定任务类型。这种方法提供了模型合并技术的重大进展,为将不同模型集成到统一的高性能模型中提供了强大的即插即用的解决方案。
-
- 图表
- 解决问题提出一种通过黑盒多目标优化算法实现大型语言模型合并的新方法。该方法的目标是将多个模型合并成一个单一的模型,以在各项任务中表现优异,但现有的方法存在人类直觉和定制策略的重度依赖以及参数冲突的问题。
- 关键思路提出了一种自动搜索最佳合并配置的方法,使用多目标优化算法,将多个不同源模型的性能估计作为优化目标,以减轻不同源模型之间的参数冲突而不丢失重要的增量参数。
- 其它亮点该方法通过实验表明,相比其他主流模型合并方法,其表现更好。而且,即使是没有明确作为优化目标的任务类型也表现出性能提升,表明该方法增强了模型的整体潜力而不仅仅是过度拟合特定任务类型。该方法提供了一种强大的模型合并技术,为将不同模型集成到统一的高性能模型中提供了一个健壮的即插即用的解决方案。
- 最近的相关研究包括模型压缩、模型蒸馏、模型剪枝等。其中一些论文的标题包括《Learning both Weights and Connections for Efficient Neural Networks》、《Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network》、《Han, S., Mao, H., & Dally, W. J. (2016). Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流