Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models

2023年12月13日
  • 简介
    当解决具有挑战性的问题时,语言模型(LMs)能够从长而复杂的上下文中识别相关信息。为了研究LMs在不同情况下如何解决检索任务,我们引入了ORION,这是一个涵盖从文本理解到编码的六个领域的结构化检索任务集合。ORION中的每个任务都可以抽象地表示为一个请求(例如问题),该请求从上下文(例如故事)中检索属性(例如角色名称)。我们对18个开源语言模型进行因果分析,这些模型的大小从1.25亿到700亿个参数不等,以研究LMs如何解决检索任务。我们发现,LMs以模块化的方式内部分解检索任务:在最后一个标记位置的中间层处理请求,而后期层从上下文中检索正确的实体。在因果执行这种分解后,模型仍能解决原始任务,在106个模型-任务对中的98个中,保留了原始正确标记概率的70%。我们通过对Pythia-2.8b的问答任务进行细致的案例研究,将宏观分解与微观描述相连接。在我们的高层次理解基础上,我们展示了一个概念验证应用程序,用于对LMs进行可扩展的内部监督,以减轻提示注入,同时只需要对单个输入进行人类监督。我们的解决方案极大地提高了准确性(在Pythia-12b上从15.5%提高到97.5%)。这项工作提供了证据,证明了在不同领域和模型中任务的普遍出现的模块化处理,并是应用可解释性进行可扩展的LMs内部监督的开创性努力。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在研究语言模型在各种领域中解决检索任务的方式,并尝试进行可解释性分析,以应对提示注入的问题。
  • 关键思路
    论文发现语言模型在处理检索任务时采用了模块化的方式,通过因果分析证明了这一点,并提出了一种可扩展的内部监督方法以减轻提示注入的影响。
  • 其它亮点
    论文提出了ORION数据集,涵盖了六个领域的结构化检索任务,从文本理解到编码。通过对18个开源语言模型进行因果分析,证明了模型在处理检索任务时采用了模块化的方式,并提出了一种可扩展的内部监督方法以减轻提示注入的影响。在Pythia-2.8b上进行了微观案例研究,并展示了可行的监督方法。
  • 相关研究
    近期研究包括对语言模型的可解释性分析和对提示注入的研究。相关论文包括《Attention is not Explanation》和《The Curious Case of Neural Text Degeneration》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问