Knowledge Fusion By Evolving Weights of Language Models

简介

本文研究了将来自不同训练场景的多个语言模型集成到一个统一模型中的方法。由于微调预训练语言模型，尤其是大型语言模型，需要大量计算资源，并且可能导致在不同领域和数据集中表现不同，因此这种方法可以在各种数据领域中表现出色，并展现出在域外数据上良好的泛化能力。我们提出了一种名为Evolver的知识融合方法，受到进化算法的启发，它不需要进一步的训练或额外的训练数据。具体而言，我们的方法涉及将不同语言模型的权重聚合到一个种群中，然后通过变异和交叉操作生成后代模型。这些后代模型随后将与其父代进行评估，以保留那些在开发数据集上表现出增强性能的模型。重要的是，我们的模型进化策略可以无缝地集成到现有的模型合并框架中，为模型增强提供了一种多功能工具。在主流语言模型（即仅编码器、仅解码器、编码器-解码器）上的实验结果表明，Evolver的表现优于之前的最先进模型。代码可在{https://github.com/duguodong7/model-evolution}上公开获取。
图表
解决问题

论文旨在解决fine-tuning预训练语言模型在不同数据领域和数据集上性能差异大的问题，提出了一种将多个模型集成为一个统一模型的方法。
关键思路

论文提出了一种基于进化算法的知识融合方法Evolver，将不同语言模型的权重聚合成一个种群，通过交叉和变异生成后代模型，并通过评估保留表现更好的模型，从而实现模型的优化。
其它亮点

该方法在主流语言模型上进行了实验，结果表明Evolver相比之前的最优方法有着更好的性能表现。论文提供了开源代码。
相关研究

最近的相关研究包括《Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models》、《Leveraging Pre-trained Checkpoints for Sequence Generation Tasks》等。

Knowledge Fusion By Evolving Weights of Language Models

评论