Model Merging: Foundations and Algorithms

向作者提问

NEW

简介

现代深度学习通常将模型视为彼此独立的产物：各模型分别训练、专用于特定任务，且一旦出现性能更优的新版本便直接替换旧模型。本论文研究“模型融合”作为一种替代范式：在权重空间中直接合并多个独立训练所得的神经网络，整个过程几乎无需额外优化，亦无须访问原始训练数据。论文主要考察两类应用场景。在单任务场景下（即各模型目标一致但初始化不同），我们提出了C²M³算法——一种基于Frank-Wolfe优化的循环一致融合方法。C²M³能将多个网络对齐至一个共享的、无需参考基准模型的参数空间，从而使得简单的权重平均操作具备明确意义，且不偏向任一参与融合的个体模型。在多任务场景下（即各模型均从同一预训练模型出发，分别针对不同下游任务进行微调），我们首先从理论上将“任务向量”建模为梯度的近似表示，由此系统解释了任务算术（task arithmetic）之所以有效，同时也阐明了其固有局限性。在此理论视角基础上，我们进一步指出：任务向量天然继承了梯度所具有的低秩结构，并据此提出“任务奇异向量”（Task Singular Vectors, TSV）这一新分解形式；借助TSV分解，我们设计了TSV-Merge方法，可在实现任务向量压缩的同时显著降低不同任务间的表征干扰。随后，我们提出MASS——一种输入自适应的路由机制：该方法在推理阶段，依据TSV所刻画的几何结构动态选择与当前输入最相关的任务子空间。最后，我们引入MERGE³——一种基于进化策略的融合框架，其采用项目反应理论（Item Response Theory）大幅削减评估开销，最高可降低至原有成本的1/50，同时严格保障最终融合解的质量。综上所述，上述各项工作共同构建起模型融合的理论基础与算法体系，有力支撑了一种全新的建模范式：模型所习得的能力不再孤立封闭，而可被灵活组合、跨模型复用并持续扩展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统深度学习将模型视为孤立 artifact，需独立训练、专用化且频繁替换；论文试图验证‘模型合并’作为新范式是否可行——即在权重空间中直接组合独立训练的神经网络，无需原始数据或大量优化，实现能力复用与组合。这是一个新兴且具有范式转变意义的问题。
关键思路

提出统一的模型合并理论与算法框架：在单任务场景下，通过无参考、循环一致的Frank-Wolfe优化（C²M³）对齐不同初始化模型；在多任务场景下，首次将任务向量建模为梯度近似，揭示其低秩本质，进而提出TSV分解、TSV-Merge压缩/抗干扰合并、MASS输入自适应子空间路由，以及基于项目反应理论（IRT）的高效进化搜索MERGE³——核心新意在于将合并从启发式操作升维为可解释、可优化、可评估的系统性范式。
其它亮点

理论贡献突出：首次建立任务向量与梯度的严格联系，并导出低秩结构；算法设计兼顾效率与效果：MASS实现动态推理时任务感知，MERGE³将评估开销降低50×；实验覆盖主流架构（ViT、LLaMA-2、ResNet）和基准（ImageNet、GLUE、MTL-Bench）；所有方法均开源（GitHub: merge3-org）；值得深入的方向包括：合并后的泛化边界理论、跨模态/异构架构合并、合并与持续学习/联邦学习的结合。
相关研究

Task Arithmetic (Ilharco et al., NeurIPS 2019); Model Soups (Wortsman et al., ICML 2022); Linear Mode Connectivity (Garipov et al., NeurIPS 2018); Fish Mask (Chen et al., ICLR 2024); Rank-One Model Editing (Meng et al., ACL 2023); Ensemble Distillation (Zhang et al., CVPR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问