Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models

简介

当解决具有挑战性的问题时，语言模型（LMs）能够从长而复杂的上下文中识别相关信息。为了研究LMs在不同情况下如何解决检索任务，我们引入了ORION，这是一个涵盖从文本理解到编码的六个领域的结构化检索任务集合。ORION中的每个任务都可以抽象地表示为一个请求（例如问题），该请求从上下文（例如故事）中检索属性（例如角色名称）。我们对18个开源语言模型进行因果分析，这些模型的大小从1.25亿到700亿个参数不等，以研究LMs如何解决检索任务。我们发现，LMs以模块化的方式内部分解检索任务：在最后一个标记位置的中间层处理请求，而后期层从上下文中检索正确的实体。在因果执行这种分解后，模型仍能解决原始任务，在106个模型-任务对中的98个中，保留了原始正确标记概率的70％。我们通过对Pythia-2.8b的问答任务进行细致的案例研究，将宏观分解与微观描述相连接。在我们的高层次理解基础上，我们展示了一个概念验证应用程序，用于对LMs进行可扩展的内部监督，以减轻提示注入，同时只需要对单个输入进行人类监督。我们的解决方案极大地提高了准确性（在Pythia-12b上从15.5％提高到97.5％）。这项工作提供了证据，证明了在不同领域和模型中任务的普遍出现的模块化处理，并是应用可解释性进行可扩展的LMs内部监督的开创性努力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在研究语言模型在各种领域中解决检索任务的方式，并尝试进行可解释性分析，以应对提示注入的问题。
关键思路

论文发现语言模型在处理检索任务时采用了模块化的方式，通过因果分析证明了这一点，并提出了一种可扩展的内部监督方法以减轻提示注入的影响。
其它亮点

论文提出了ORION数据集，涵盖了六个领域的结构化检索任务，从文本理解到编码。通过对18个开源语言模型进行因果分析，证明了模型在处理检索任务时采用了模块化的方式，并提出了一种可扩展的内部监督方法以减轻提示注入的影响。在Pythia-2.8b上进行了微观案例研究，并展示了可行的监督方法。
相关研究

近期研究包括对语言模型的可解释性分析和对提示注入的研究。相关论文包括《Attention is not Explanation》和《The Curious Case of Neural Text Degeneration》等。

Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models

提问交流

提问交流