MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic

简介

大型语言模型（LLM）的出现，如GPT-4，催生了多任务学习（MTL）的探索，其中单个模型展示了跨多种任务的能力。任务算法已经成为MTL的一种经济有效的方法。它通过将相应的任务向量添加到预训练模型中，实现了多个任务的性能提升。然而，目前缺乏一种方法能够同时实现最佳性能、计算效率和数据隐私，限制了它们在LLMs中的应用。在本文中，我们提出了一种名为“模型独占任务算法”的方法，用于合并GPT规模的模型，将模型合并的目标形式化为多任务学习框架，旨在最小化合并模型和每个单独任务模型之间的平均损失差异。由于数据隐私限制了多任务训练数据的使用，我们利用LLMs的局部线性性和任务向量的正交性来分离数据项和缩放系数项，并推导出一种模型独占的任务算法方法。我们提出的MetaGPT不受数据影响，并绕过了繁重的搜索过程，使其对LLMs具有成本效益和易于实现的优势。广泛的实验表明，MetaGPT改进了任务算法，并在多个任务上实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大语言模型中多任务学习的问题，提出了一种Model Exclusive Task Arithmetic的方法，旨在同时实现最优性能、计算效率和数据隐私。
关键思路

论文提出了一种MetaGPT方法，将模型合并的目标形式化为多任务学习框架，并利用局部线性性和任务向量的正交性来分离数据项和缩放系数项，从而实现了数据隐私保护的模型合并。
其它亮点

MetaGPT是一种数据不敏感的方法，绕过了繁重的搜索过程，对大语言模型具有成本效益和易于实现的优势。实验表明，MetaGPT在任务算术上具有改进，并在多个任务上实现了最先进的性能。
相关研究

最近的相关研究包括使用不同方法进行多任务学习的论文，如基于共享表示的方法和基于联合训练的方法。

MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic

提问交流

提问交流