- 简介大型语言模型(LLM)的出现,如GPT-4,催生了多任务学习(MTL)的探索,其中单个模型展示了跨多种任务的能力。任务算法已经成为MTL的一种经济有效的方法。它通过将相应的任务向量添加到预训练模型中,实现了多个任务的性能提升。然而,目前缺乏一种方法能够同时实现最佳性能、计算效率和数据隐私,限制了它们在LLMs中的应用。在本文中,我们提出了一种名为“模型独占任务算法”的方法,用于合并GPT规模的模型,将模型合并的目标形式化为多任务学习框架,旨在最小化合并模型和每个单独任务模型之间的平均损失差异。由于数据隐私限制了多任务训练数据的使用,我们利用LLMs的局部线性性和任务向量的正交性来分离数据项和缩放系数项,并推导出一种模型独占的任务算法方法。我们提出的MetaGPT不受数据影响,并绕过了繁重的搜索过程,使其对LLMs具有成本效益和易于实现的优势。广泛的实验表明,MetaGPT改进了任务算法,并在多个任务上实现了最先进的性能。
-
- 图表
- 解决问题论文旨在解决大语言模型中多任务学习的问题,提出了一种Model Exclusive Task Arithmetic的方法,旨在同时实现最优性能、计算效率和数据隐私。
- 关键思路论文提出了一种MetaGPT方法,将模型合并的目标形式化为多任务学习框架,并利用局部线性性和任务向量的正交性来分离数据项和缩放系数项,从而实现了数据隐私保护的模型合并。
- 其它亮点MetaGPT是一种数据不敏感的方法,绕过了繁重的搜索过程,对大语言模型具有成本效益和易于实现的优势。实验表明,MetaGPT在任务算术上具有改进,并在多个任务上实现了最先进的性能。
- 最近的相关研究包括使用不同方法进行多任务学习的论文,如基于共享表示的方法和基于联合训练的方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流