MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation

简介

模型合并已成为将多个单任务模型，从同一预训练模型微调后合并成多任务模型的有效方法。这个过程通常涉及计算模型参数的加权平均值，而不需要额外的训练。现有的模型合并方法侧重于提高平均任务准确度。然而，不同任务之间的干扰和冲突可能会在模型合并过程中导致权衡。在实际应用中，具有各种权衡的一组解决方案可能更具信息性，有助于从不同的偏好出发做出决策。在本文中，我们介绍了一种新颖的低计算量算法，即带摊销帕累托前沿的模型合并（MAP）。MAP确定了一组帕累托系数，用于合并多个模型以反映权衡。MAP的核心组件是使用二次近似代理模型来近似从预选的一组缩放系数导出的各种任务的评估指标，从而实现摊销推理。在视觉和自然语言处理任务上的实验结果表明，MAP可以准确地识别帕累托前沿。为了进一步减少MAP所需的计算量，我们提出了（1）一种贝叶斯自适应采样算法和（2）一个具有多个阶段的嵌套合并方案。
图表
解决问题

本文旨在解决模型合并过程中不同任务之间的干扰和冲突问题，提出一种低计算量的算法MAP，用于在多个单任务模型中识别Pareto前沿，以反映任务之间的权衡。
关键思路

MAP算法的核心是使用二次近似代理模型来逼近不同任务的评估指标，从而实现摊销推理，以识别模型合并的权衡。同时，提出了贝叶斯自适应采样算法和多阶段嵌套合并方案，以进一步减少MAP所需的计算量。
其它亮点

本文提出的MAP算法可以准确地识别Pareto前沿，实验结果表明其有效性。实验采用了视觉和自然语言处理任务，并提供了开源代码。此外，贝叶斯自适应采样算法和多阶段嵌套合并方案也是本文的亮点。
相关研究

与本文相关的研究包括模型合并方法和多目标优化算法。其中一些相关的论文包括《Learning to Learn for Global Optimization of Black Box Functions》和《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》。

MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation

评论