- 简介现代深度学习通常将模型视为彼此独立的产物:各模型分别训练、专用于特定任务,且一旦出现性能更优的新版本便直接替换旧模型。本论文研究“模型融合”作为一种替代范式:在权重空间中直接合并多个独立训练所得的神经网络,整个过程几乎无需额外优化,亦无须访问原始训练数据。 论文主要考察两类应用场景。在单任务场景下(即各模型目标一致但初始化不同),我们提出了C²M³算法——一种基于Frank-Wolfe优化的循环一致融合方法。C²M³能将多个网络对齐至一个共享的、无需参考基准模型的参数空间,从而使得简单的权重平均操作具备明确意义,且不偏向任一参与融合的个体模型。 在多任务场景下(即各模型均从同一预训练模型出发,分别针对不同下游任务进行微调),我们首先从理论上将“任务向量”建模为梯度的近似表示,由此系统解释了任务算术(task arithmetic)之所以有效,同时也阐明了其固有局限性。在此理论视角基础上,我们进一步指出:任务向量天然继承了梯度所具有的低秩结构,并据此提出“任务奇异向量”(Task Singular Vectors, TSV)这一新分解形式;借助TSV分解,我们设计了TSV-Merge方法,可在实现任务向量压缩的同时显著降低不同任务间的表征干扰。随后,我们提出MASS——一种输入自适应的路由机制:该方法在推理阶段,依据TSV所刻画的几何结构动态选择与当前输入最相关的任务子空间。最后,我们引入MERGE³——一种基于进化策略的融合框架,其采用项目反应理论(Item Response Theory)大幅削减评估开销,最高可降低至原有成本的1/50,同时严格保障最终融合解的质量。 综上所述,上述各项工作共同构建起模型融合的理论基础与算法体系,有力支撑了一种全新的建模范式:模型所习得的能力不再孤立封闭,而可被灵活组合、跨模型复用并持续扩展。
-
- 图表
- 解决问题传统深度学习将模型视为孤立 artifact,需独立训练、专用化且频繁替换;论文试图验证‘模型合并’作为新范式是否可行——即在权重空间中直接组合独立训练的神经网络,无需原始数据或大量优化,实现能力复用与组合。这是一个新兴且具有范式转变意义的问题。
- 关键思路提出统一的模型合并理论与算法框架:在单任务场景下,通过无参考、循环一致的Frank-Wolfe优化(C²M³)对齐不同初始化模型;在多任务场景下,首次将任务向量建模为梯度近似,揭示其低秩本质,进而提出TSV分解、TSV-Merge压缩/抗干扰合并、MASS输入自适应子空间路由,以及基于项目反应理论(IRT)的高效进化搜索MERGE³——核心新意在于将合并从启发式操作升维为可解释、可优化、可评估的系统性范式。
- 其它亮点理论贡献突出:首次建立任务向量与梯度的严格联系,并导出低秩结构;算法设计兼顾效率与效果:MASS实现动态推理时任务感知,MERGE³将评估开销降低50×;实验覆盖主流架构(ViT、LLaMA-2、ResNet)和基准(ImageNet、GLUE、MTL-Bench);所有方法均开源(GitHub: merge3-org);值得深入的方向包括:合并后的泛化边界理论、跨模态/异构架构合并、合并与持续学习/联邦学习的结合。
- Task Arithmetic (Ilharco et al., NeurIPS 2019); Model Soups (Wortsman et al., ICML 2022); Linear Mode Connectivity (Garipov et al., NeurIPS 2018); Fish Mask (Chen et al., ICLR 2024); Rank-One Model Editing (Meng et al., ACL 2023); Ensemble Distillation (Zhang et al., CVPR 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流