Multi-Level Collaboration in Model Merging

向作者提问

NEW

简介

参数级别的模型合并是多任务学习中一个新兴的范式，具有重要的潜力。先前的研究探讨了其与预测级别模型集成之间的联系——后者通常被视为合并的上限——揭示了在两者之间实现性能一致性的潜力。然而，这一观察依赖于某些前提条件，例如仅限于两个模型、使用基于ViT的模型以及所有模型都从相同的预训练检查点进行微调。为了进一步理解模型合并与模型集成之间的内在联系，本文探讨了一个有趣的可能性：如果这些限制被移除，合并与集成之间是否仍能实现性能一致性？为回答这个问题，我们首先从理论上建立了合并和集成之间的性能相关性。我们发现，即使先前的限制条件不满足，模型合并仍然可以达到与集成几乎相同甚至更优的性能。为了验证我们的研究结果是否具有实用性，我们引入了一个名为神经配体（NeuLig）的验证框架。NeuLig的学习过程经过精心设计，采用了一种由理论基础支持的专门损失函数。实验结果表明，NeuLig在模型规模和协作模型数量方面都表现出强大的鲁棒性。例如，在涉及5个CLIP-ViT-B/32模型的情况下，参数级别的合并实现了与预测级别集成相同的性能（合并：95.44% vs. 集成：95.46%）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图验证在放宽先前研究中设定的限制条件（如模型数量、模型架构和预训练检查点的一致性）后，参数级模型合并是否仍能实现与预测级模型集成相当或接近的性能一致性。这是一个新的问题，因为它挑战了现有研究中关于模型合并和集成之间关系的理解，并探索更广泛条件下两者性能的一致性。
关键思路

关键思路在于通过理论分析建立模型合并与集成之间的性能相关性，并提出即使在没有先前研究中设定的严格限制下，仍然可以通过特定方法使模型合并达到与集成相似甚至更优的性能。相比当前研究，这篇论文的新意在于它不仅限于ViT架构或两个模型的合并，而是扩展到更多模型和不同架构的合并，从而揭示了更广泛的适用性和潜力。
其它亮点

论文引入了一个名为Neural Ligand (NeuLig) 的验证框架，该框架具有专门设计的损失函数，支持其理论基础。实验结果表明，NeuLig 在不同规模的模型和多个协作模型的情况下表现出强大的鲁棒性。例如，在使用5个CLIP-ViT-B/32模型时，参数级合并达到了与预测级集成几乎相同的性能（合并：95.44% vs. 集成：95.46%）。此外，作者还展示了该方法在不同模型架构和预训练检查点下的有效性。虽然论文未提及开源代码，但其实验设计为未来研究提供了坚实的基础。
相关研究

最近在这个领域中的相关研究包括：1. “Exploring the Limits of Weakly Supervised Pretraining”，探讨了预训练模型在多任务学习中的应用；2. “Unifying Heterogeneous Classifiers with Distillation”，研究了通过蒸馏技术统一异构分类器的方法；3. “Parameter-Efficient Transfer Learning for NLP”，关注参数高效的迁移学习方法；4. “A Simple Framework for Contrastive Learning of Visual Representations”，提出了对比学习框架以改进视觉表示。这些研究共同推动了多任务学习和模型集成领域的进展。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问