Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

2024年06月23日
  • 简介
    大型语言模型(LLMs)即使经过专门训练以处理长输入上下文,也难以捕捉到位于其输入中间的相关信息,这种现象被称为“中间丢失”问题。在这项工作中,我们做出了三个贡献。首先,我们试图了解导致这种现象的因素。在这样做的过程中,我们建立了中间丢失与LLMs内在的注意力偏差之间的联系:LLMs表现出U形的注意力偏差,无论其相关性如何,其输入开头和结尾的标记都会受到更高的关注。其次,我们通过一种校准机制“中间发现”来缓解这种位置偏差,使模型能够根据其相关性忠实地关注上下文,即使它们位于中间。第三,我们展示了“中间发现”不仅在定位长上下文中的相关信息方面表现更好,而且最终在各种任务中导致了改进的检索增强生成(RAG)性能,比现有方法表现更好达到了15个百分点。这些发现开辟了未来理解LLM注意力偏差及其潜在后果的方向。
  • 图表
  • 解决问题
    解决问题:论文试图解决LLMs在处理长文本时无法捕捉到中间相关信息的问题,即所谓的lost-in-the-middle问题。
  • 关键思路
    关键思路:论文通过发现LLMs固有的注意力偏差,即U形注意力偏差,建立了lost-in-the-middle问题与LLMs注意力偏差之间的联系,并提出了一种校准机制——found-in-the-middle,以减轻这种位置偏差的影响。
  • 其它亮点
    其他亮点:论文在多个任务中进行了实验,展示了found-in-the-middle方法的有效性,最高可提高15个百分点的表现;论文还提出了LLMs注意力偏差的概念,并探讨了其潜在后果。
  • 相关研究
    相关研究:最近的相关研究包括《BERT Has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》、《Revealing the Dark Secrets of BERT》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论