Evolutionary Optimization of Model Merging Recipes

简介

我们提出了一种新颖的应用进化算法来自动创建强大的基础模型。虽然模型合并已经成为LLM开发的一种有前途的方法，因为它具有成本效益，但目前它仍然依赖于人类的直觉和领域知识，限制了它的潜力。在这里，我们提出了一种进化的方法，通过自动发现不同开源模型的有效组合，利用它们的集体智慧，而不需要大量的额外训练数据或计算，从而克服了这种限制。我们的方法在参数空间和数据流空间中操作，允许优化超出单个模型的权重。这种方法甚至促进了跨领域合并，生成具有数学推理能力的日本LLM等模型。令人惊讶的是，我们的日语数学LLM在各种已建立的日语LLM基准测试中取得了最先进的性能，甚至超过了具有更多参数的模型，尽管它没有明确地针对这些任务进行训练。此外，通过我们的方法生成的文化感知的日本VLM展示了它在描述日本文化特定内容方面的有效性，超过了以前的日本VLM。这项工作不仅向开源社区贡献了新的最先进模型，而且引入了一种新的自动模型组合范例，为探索替代的高效基础模型开发方法铺平了道路。

图表

解决问题

自动化创建强大的基础模型，解决模型合并中依赖于人类直觉和领域知识的限制问题。

关键思路

使用进化算法自动发现有效的开源模型组合，从而优化基础模型的开发。

其它亮点

该方法可以在参数空间和数据流空间中操作，甚至可以进行跨领域合并。实验结果表明该方法生成的模型在多项任务中表现优异，甚至超过了具有更多参数的模型。该工作为开源社区贡献了新的最先进模型，并引入了一种自动化模型组合的新范式。

Evolutionary Optimization of Model Merging Recipes

评论