Knowledge Circuits in Pretrained Transformers

简介

现代大型语言模型的卓越能力根植于其参数中编码的广泛知识库，使其能够感知世界并进行推理。这些模型存储知识的内部运作长期以来一直是研究人员极为关注和研究的对象。迄今为止，大多数研究集中在这些模型中的孤立组件，例如多层感知器和注意力头。在本文中，我们深入探讨了语言模型的计算图，以揭示在表达特定知识方面起关键作用的知识电路。使用GPT2和TinyLLAMA进行的实验使我们能够观察到某些信息头、关系头和多层感知器如何协作地在模型中编码知识。此外，我们还评估了当前知识编辑技术对这些知识电路的影响，从而更深入地了解这些编辑方法的功能和限制。最后，我们利用知识电路分析和解释语言模型的行为，例如幻觉和上下文学习。我们相信知识电路具有推进我们对变压器的理解并指导知识编辑改进设计的潜力。代码和数据可在https://github.com/zjunlp/KnowledgeCircuits中获取。
图表
解决问题

探究语言模型中的知识电路对于理解模型知识存储的重要性以及知识编辑技术的影响。这是一个新问题。
关键思路

通过研究语言模型的计算图，发现知识电路对于特定知识的表达至关重要，包括信息头、关系头和多层感知器的协同编码。同时，通过对知识电路的分析，可以进一步理解模型的行为，如幻觉和上下文学习。
其它亮点

论文使用了GPT2和TinyLLAMA进行实验，探究了知识电路的重要性和知识编辑技术的影响。此外，作者提供了代码和数据集，并提出了知识电路在改进Transformer设计方面的潜力。
相关研究

最近的相关研究包括《Attention is not Explanation》和《Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned》。

Knowledge Circuits in Pretrained Transformers

评论