Make Your LLM Fully Utilize the Context

2024年04月25日
  • 简介
    虽然许多现代大型语言模型(LLM)可以处理长输入,但它们仍然难以充分利用长上下文中的信息,这被称为“中间丢失挑战”。我们假设这是由于长上下文训练期间不足的显式监督,未能强调长上下文中的任何位置都可能包含关键信息。基于这种直觉,我们的研究提出了信息密集型(IN2)训练,这是一种纯数据驱动的解决方案,可克服“中间丢失”问题。具体而言,IN2训练利用合成的长上下文问答数据集,在这个数据集中,答案需要(1)对合成的长上下文(4K-32K令牌)中的短段(〜128令牌)进行细粒度信息意识,以及(2)整合和推理来自两个或更多短段的信息。通过将这种信息密集型训练应用于Mistral-7B,我们提出了FILM-7B(填充中间)。为了全面评估FILM-7B利用长上下文的能力,我们设计了三个探测任务,涵盖不同的上下文样式(文档、代码和结构化数据上下文)和信息检索模式(前向、后向和双向检索)。探测结果表明,FILM-7B可以稳健地从其32K上下文窗口中的不同位置检索信息。除了这些探测任务,FILM-7B在真实世界的长上下文任务(例如,在NarrativeQA上的F1分数从23.5提高到26.9)上显著提高了性能,同时在短上下文任务(例如,在MMLU上的准确性从59.3提高到59.2)上保持了可比性。Github链接:https://github.com/microsoft/FILM。
  • 解决问题
    本篇论文试图解决长文本处理中的“中间信息丢失”问题,提出了一种新的训练方法IN2,旨在强化长文本处理中任意位置的信息重要性。
  • 关键思路
    IN2训练方法基于合成的长文本问答数据集,要求模型对短段落(约128个标记)内的细节信息以及来自两个或多个短段落的信息进行整合和推理。通过将IN2训练应用于Mistral-7B,作者提出了FILM-7B模型,能够有效地利用长文本信息。
  • 其它亮点
    论文设计了三个探针任务来评估FILM-7B模型对不同类型长文本的信息检索能力,探究了前向、后向和双向检索模式。实验结果表明,FILM-7B模型能够稳健地检索来自长文本不同位置的信息。此外,FILM-7B模型在现实世界的长文本任务中取得了显著的性能提升,同时在短文本任务上保持了可比较的性能。作者还开源了代码,提供了多个数据集。
  • 相关研究
    近年来,长文本处理领域的相关研究非常活跃。其中,BERT、XLNet、ERNIE等预训练语言模型是比较典型的代表。此外,也有一些工作探究了如何利用长文本中的局部信息,如Longformer、Big Bird等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论