ZipIt!：将不同任务的模型合并而无需进行训练

ZipIt! Merging Models from Different Tasks without Training

解决问题：本篇论文旨在解决将完全不同的模型合并为一个多任务模型的难题，且无需进行额外的训练。这是一个新问题。

关键思路：本文提出了一种名为“ZipIt!”的通用方法，用于合并两个具有相同架构的任意模型，其中包含两个简单策略。首先，为了考虑不在模型之间共享的特征，我们将模型合并问题扩展到允许在每个模型内部合并特征，定义了一个通用的“zip”操作。其次，我们支持部分压缩模型，直到指定的层，自然地创建一个多头模型。这两个变化的结合使得本文的方案比之前的工作在性能上提高了20-60％，使得合并在不同任务上训练的模型成为可能。

其他亮点：本文通过实验验证了ZipIt!方法的有效性，使用了CIFAR-10和CIFAR-100数据集，并且开源了代码。这项工作值得进一步深入研究，特别是在多任务学习领域。

关于作者：

G Stoica, D Bolya, J Bjorner, T Hearn, J Hoffman

https://arxiv.org/abs/2305.03053

论文摘要：本文提出了一种名为“ZipIt！”的通用方法，可以将两个完全不同的、具有不同初始化的模型合并为一个多任务模型，而无需进行任何额外的训练。这些模型分别解决各自的任务。以前的模型合并工作将一个模型排列到另一个模型的空间中，然后将它们相加。虽然这对于在同一任务上训练的模型有效，但我们发现这未能考虑到在不同任务上训练的模型之间的差异。因此，我们引入了两个简单的策略来解决这个问题。首先，为了解决模型之间不共享的特征，我们将模型合并问题扩展到允许在每个模型内部合并特征，定义了一个通用的“zip”操作。其次，我们添加了对部分压缩模型的支持，自然地创建了一个多头模型。我们发现，这两个变化结合起来，相对于以前的工作，可以取得惊人的20-60%的改进，使得在不同任务上训练的模型的合并成为可能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ZipIt!：将不同任务的模型合并而无需进行训练

评论