The Fall of ROME: Understanding the Collapse of LLMs in Model Editing

2024年06月17日
  • 简介
    尽管模型编辑方法取得了显著进展,但它们在实际场景中的应用仍然具有挑战性,因为它们经常导致大型语言模型崩溃。其中,ROME尤其令人担忧,因为它只需要进行一次编辑就可以破坏LLM。本文研究了这种崩溃的根本原因。通过广泛的分析,我们确定了两个主要因素导致了崩溃:i)在参数更新方程中不一致地处理带前缀和不带前缀的键可能导致非常小的分母,从而导致过度大的参数更新;ii)崩溃案例的主题通常是第一个令牌,其不带前缀的键分布与自回归变压器中的带前缀的键分布显著不同,从而导致上述问题得以实现。为了验证我们的分析,我们提出了一种简单而有效的方法:在编辑阶段统一使用带前缀的键,在测试阶段添加前缀。实验结果表明,所提出的解决方案可以防止模型崩溃,同时保持编辑的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    解决LLMs在模型编辑过程中容易崩溃的问题,特别是ROME对LLMs进行单一编辑时的影响。
  • 关键思路
    通过分析发现,不一致的前缀和非前缀键处理方式以及在自回归变换器中第一个标记的非前缀键分布与前缀键分布显著不同是导致LLMs崩溃的两个主要因素。为了解决这个问题,提出了在编辑阶段统一使用前缀键并在测试阶段添加前缀的简单有效方法。
  • 其它亮点
    实验证明该方法可以防止模型崩溃同时保持编辑的有效性。该论文对LLMs模型编辑过程中的崩溃问题进行了深入分析,并提出了解决方案。
  • 相关研究
    该领域的相关研究包括:《On the Robustness of Language Models to Universal Adversarial Triggers》、《Adversarial Examples Are Not Bugs, They Are Features》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问