Knowledge Fusion of Large Language Models

简介

本文介绍了一种知识融合的方法，旨在将现有的大型语言模型（LLMs）的能力结合到一个单一的模型中。虽然从头开始训练LLMs可以生成具有不同功能和优点的模型，但这样做成本高昂，可能会导致冗余能力。相反，一种经济实惠且引人注目的方法是将现有的预训练LLMs合并成一个更强大的模型。然而，由于这些LLMs的架构不同，直接混合它们的权重是不切实际的。通过利用源LLMs的生成分布，我们将它们的集体知识和独特优势外部化，从而可能将目标模型的能力提升到超过任何单个源LLM的水平。我们使用不同架构的三个流行LLMs（Llama-2、MPT和OpenLLaMA）在各种基准测试和任务中验证了我们的方法。我们的发现证实，LLMs的融合可以提高目标模型在推理、常识和代码生成等各种能力方面的性能。我们的代码、模型权重和数据公开在\url{https://github.com/fanqiwan/FuseLLM}。
图表
解决问题

论文旨在解决如何将不同架构的预训练大型语言模型（LLMs）合并成一个更强大的模型的问题。这是否是一个新问题？
关键思路

论文提出了知识融合的概念，通过利用源LLMs的生成分布，将它们的集体知识和独特优势外部化，从而将它们的能力转移到目标模型中。相比当前领域的研究，这篇论文的思路有什么新意？
其它亮点

论文使用了三种不同架构的LLMs（Llama-2、MPT和OpenLLaMA）在各种基准测试和任务中验证了知识融合的方法。实验结果表明，LLMs的融合可以提高目标模型的性能，包括推理、常识和代码生成等方面。论文的代码、模型权重和数据都是公开的。
相关研究

最近在这个领域中，还有一些相关的研究，如《Large Scale Language Model Compression》、《Distilling Knowledge from Ensembles of Neural Networks for Speech Recognition》等。

Knowledge Fusion of Large Language Models

评论