来自今天的爱可可AI前沿推介

[CL] Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models

P Hase, M Bansal, B Kim, A Ghandeharioun
[Google Research & UNC Chapel Hill]

定位能否为编辑提供信息?语言模型中基于因果的定位与知识编辑的差异

要点:

  1. 语言模型中事实信息的定位(通过表示去噪(Causal Tracing)度量)不能告诉我们应该编辑哪些模型权重来更改已记忆的事实;
  2. 质疑了信息定位在模型中能提供如何编辑模型方面信息的假设,对依赖于Causal Tracing选择哪些层编辑的之前工作提出了疑问;
  3. 介绍了四种模型编辑问题(Tracing Reversal, Fact Erasure, Fact Amplification, Fact Forcing)的变体,以更好地理解表示去噪与权重编辑之间的差异;
  4. 编辑层的选择是编辑性能的更重要因素,而不是来自Causal Tracing的定位信息,对语言模型如何工作的理解不一定能转化为如何改变其行为的见解。

一句话总结:
表示去噪度量得到的定位结果并不能提供应该在哪些层编辑来更改模型中已记忆事实的信息,编辑层的选择是编辑性能的重要因素。

论文链接:https://arxiv.org/abs/2301.04213
图片
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除