Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

2024年06月20日
  • 简介
    本文探究了模型合并对齐的影响。将大型语言模型(LLMs)合并是将多个专家LLMs组合成一个多才多艺的模型的一种成本效益高的技术,保留了原始模型的专业知识。然而,目前的方法经常忽略了合并过程中安全对齐的重要性,导致模型高度不对齐。我们评估了几种流行的模型合并技术,证明现有方法不仅可以传递领域专业知识,还可以传播不对齐。我们提出了一个简单的两步方法来解决这个问题:(i)生成合成的安全和领域特定数据,(ii)将这些生成的数据纳入现有的数据感知模型合并技术的优化过程中。这使我们能够将对齐视为一种可以在合并后的LLM中最大化的技能。我们的实验表明,在合并过程中整合与对齐相关的数据是有效的,可以得到在领域专业知识和对齐方面都表现优异的模型。
  • 图表
  • 解决问题
    本论文旨在研究模型合并对齐的影响,并提出一种解决方案来最大化合并后的模型的领域专业知识和对齐性。
  • 关键思路
    论文提出了一种简单的两步方法来解决合并模型时的对齐问题:(i)生成合成的安全和领域特定数据,(ii)将这些生成的数据纳入现有数据感知模型合并技术的优化过程中。
  • 其它亮点
    论文评估了几种流行的模型合并技术,证明了现有方法不仅可以传递领域专业知识,而且还会传播对齐错误。实验结果表明,将对齐相关数据纳入合并过程中是有效的,可以生成在领域专业知识和对齐性方面都表现出色的模型。
  • 相关研究
    最近的相关研究包括“Large-Scale Language Model Integration without Parameter Sharing”和“Learning to Learn from Data: A Meta-Learning Approach for Online Short-Term Prediction”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论