Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization

简介

将多个大型语言模型（LLMs）的知识融合起来可以结合它们各自的优势，在给定任务上实现更好的性能。然而，目前的融合方法要么依赖于基于学习的融合器，这些融合器不能推广到新的LLMs，要么不考虑每个LLM对输入的理解程度。在这项工作中，我们研究了测试时的LLM融合，这使得在推断过程中可以利用任意用户指定的LLMs的知识。我们引入了Pack of LLMs（PackLLM），这是一种有效的测试时融合方法，它利用了每个LLM在给定输入提示时的专业知识。PackLLM通过解决一个优化问题来执行模型融合，以确定每个LLM的重要性，从而最小化输入提示的困惑度。首先，我们的简单PackLLM-sim变体验证了困惑度是衡量每个LLM专业知识的好指标。其次，我们的PackLLM-opt变体通过贪心算法近似解决了困惑度最小化问题。派生的重要性权重用于在推断过程中组合LLMs。我们在各种任务上使用了100多个LLMs进行实验。实验结果表明：（i）困惑度是LLM融合的可靠指标，（ii）PackLLM的准确性比测试时融合基线提高了1.89％，（iii）PackLLM可以利用新的LLMs提高性能，使得准确性比基于学习的融合方法提高了3.92-11.94％。
图表
解决问题

本论文探讨如何在测试时融合多个大型语言模型，以提高模型性能。当前的融合方法要么依赖于无法泛化到新模型的学习型融合器，要么没有考虑到每个模型对输入的理解程度。
关键思路

PackLLM是一种有效的测试时融合方法，它通过解决优化问题来确定每个模型的重要性，以最小化对输入提示的困惑度。PackLLM-opt通过贪心算法近似解决困惑度最小化问题。得到的重要性权重用于在推理过程中组合模型。
其它亮点

论文在各种任务上使用100多个模型进行实验，结果表明：（i）困惑度是衡量模型融合的可靠指标，（ii）PackLLM的性能优于测试时融合基线，可以提高1.89％的准确率，（iii）与学习型融合方法相比，PackLLM可以利用新模型提高3.92-11.94％的准确率。
相关研究

最近的相关研究包括：《Improving Language Understanding by Generative Pre-Training》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization

评论