Evolutionary Optimization of Model Merging Recipes

Takuya Akiba ,
Makoto Shing ,
Yujin Tang ,
Qi Sun ,
David Ha
120
热度
2024年03月19日
  • 简介
    我们提出了一种新颖的应用进化算法来自动创建强大的基础模型。虽然模型合并已经成为LLM开发的一种有前途的方法,因为它具有成本效益,但目前它仍然依赖于人类的直觉和领域知识,限制了它的潜力。在这里,我们提出了一种进化的方法,通过自动发现不同开源模型的有效组合,利用它们的集体智慧,而不需要大量的额外训练数据或计算,从而克服了这种限制。我们的方法在参数空间和数据流空间中操作,允许优化超出单个模型的权重。这种方法甚至促进了跨领域合并,生成具有数学推理能力的日本LLM等模型。令人惊讶的是,我们的日语数学LLM在各种已建立的日语LLM基准测试中取得了最先进的性能,甚至超过了具有更多参数的模型,尽管它没有明确地针对这些任务进行训练。此外,通过我们的方法生成的文化感知的日本VLM展示了它在描述日本文化特定内容方面的有效性,超过了以前的日本VLM。这项工作不仅向开源社区贡献了新的最先进模型,而且引入了一种新的自动模型组合范例,为探索替代的高效基础模型开发方法铺平了道路。
  • 图表
  • 解决问题
    自动化创建强大的基础模型,解决模型合并中依赖于人类直觉和领域知识的限制问题。
  • 关键思路
    使用进化算法自动发现有效的开源模型组合,从而优化基础模型的开发。
  • 其它亮点
    该方法可以在参数空间和数据流空间中操作,甚至可以进行跨领域合并。实验结果表明该方法生成的模型在多项任务中表现优异,甚至超过了具有更多参数的模型。该工作为开源社区贡献了新的最先进模型,并引入了一种自动化模型组合的新范式。
  • 相关研究
    最近的相关研究包括模型合并、进化算法和基础模型开发等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论