- 简介本文介绍了一种知识融合的方法,旨在将现有的大型语言模型(LLMs)的能力结合到一个单一的模型中。虽然从头开始训练LLMs可以生成具有不同功能和优点的模型,但这样做成本高昂,可能会导致冗余能力。相反,一种经济实惠且引人注目的方法是将现有的预训练LLMs合并成一个更强大的模型。然而,由于这些LLMs的架构不同,直接混合它们的权重是不切实际的。通过利用源LLMs的生成分布,我们将它们的集体知识和独特优势外部化,从而可能将目标模型的能力提升到超过任何单个源LLM的水平。我们使用不同架构的三个流行LLMs(Llama-2、MPT和OpenLLaMA)在各种基准测试和任务中验证了我们的方法。我们的发现证实,LLMs的融合可以提高目标模型在推理、常识和代码生成等各种能力方面的性能。我们的代码、模型权重和数据公开在\url{https://github.com/fanqiwan/FuseLLM}。
- 图表
- 解决问题论文旨在解决如何将不同架构的预训练大型语言模型(LLMs)合并成一个更强大的模型的问题。这是否是一个新问题?
- 关键思路论文提出了知识融合的概念,通过利用源LLMs的生成分布,将它们的集体知识和独特优势外部化,从而将它们的能力转移到目标模型中。相比当前领域的研究,这篇论文的思路有什么新意?
- 其它亮点论文使用了三种不同架构的LLMs(Llama-2、MPT和OpenLLaMA)在各种基准测试和任务中验证了知识融合的方法。实验结果表明,LLMs的融合可以提高目标模型的性能,包括推理、常识和代码生成等方面。论文的代码、模型权重和数据都是公开的。
- 最近在这个领域中,还有一些相关的研究,如《Large Scale Language Model Compression》、《Distilling Knowledge from Ensembles of Neural Networks for Speech Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢