- 简介大型语言模型(LLMs)在其参数中拥有大量的知识,促使研究人员探索定位和编辑这些知识的方法。以往的研究主要集中在填空任务和在相对较小规模的语言模型中查找与实体相关的通常是单个标记的信息。然而,仍有几个关键问题没有得到解答:(1)我们如何有效地定位当代自回归LLMs(例如LLaMA和Mistral)中与查询相关的神经元?(2)我们如何应对长篇文本生成的挑战?(3)LLMs中是否存在局部化的知识区域?在本研究中,我们介绍了神经元归因-反向聚类归因(NA-ICA),这是一个新颖的架构不可知的框架,能够识别LLMs中的关键神经元。NA-ICA通过采用多选题回答的代理任务,允许检查超出单个标记的长篇答案。为了评估我们检测到的关键神经元的有效性,我们构建了两个跨领域和语言的多选题QA数据集。实证评估表明,NA-ICA显著优于基线方法。此外,神经元分布的分析揭示了存在可见的局部化区域,特别是在不同领域内。最后,我们展示了检测到的关键神经元在知识编辑和基于神经元的预测中的潜在应用。
- 图表
- 解决问题论文试图解决如何有效地定位当前自回归语言模型中的有用信息,以及如何处理长文本生成的问题。同时,论文还探讨了自回归语言模型中是否存在局部知识区域的问题。
- 关键思路论文提出了一种新的框架NA-ICA,可以有效地定位自回归语言模型中的关键神经元,并且能够处理长文本生成的问题。该框架利用多选题回答的代理任务来检查长答案,通过反向传播和神经元归因来定位关键神经元。同时,论文还发现了自回归语言模型中存在局部知识区域的现象。
- 其它亮点论文使用了两个多选题回答数据集来评估NA-ICA框架的有效性,并与基线方法进行了比较。实验结果表明,NA-ICA显著优于基线方法。此外,论文还分析了神经元分布,并发现不同领域之间存在可见的局部知识区域。最后,论文还展示了利用关键神经元进行知识编辑和基于神经元的预测的潜在应用。
- 最近的相关研究包括利用自回归语言模型进行文本生成和填空任务,以及探索自回归语言模型中的知识表示和知识提取方法。其中一些相关的论文包括《GPT-3》、《T5》和《ERNIE》等。
沙发等你来抢
去评论
评论
沙发等你来抢