Make Your LLM Fully Utilize the Context

简介

虽然许多现代大型语言模型（LLM）可以处理长输入，但它们仍然难以充分利用长上下文中的信息，这被称为“中间丢失挑战”。我们假设这是由于长上下文训练期间不足的显式监督，未能强调长上下文中的任何位置都可能包含关键信息。基于这种直觉，我们的研究提出了信息密集型（IN2）训练，这是一种纯数据驱动的解决方案，可克服“中间丢失”问题。具体而言，IN2训练利用合成的长上下文问答数据集，在这个数据集中，答案需要（1）对合成的长上下文（4K-32K令牌）中的短段（〜128令牌）进行细粒度信息意识，以及（2）整合和推理来自两个或更多短段的信息。通过将这种信息密集型训练应用于Mistral-7B，我们提出了FILM-7B（填充中间）。为了全面评估FILM-7B利用长上下文的能力，我们设计了三个探测任务，涵盖不同的上下文样式（文档、代码和结构化数据上下文）和信息检索模式（前向、后向和双向检索）。探测结果表明，FILM-7B可以稳健地从其32K上下文窗口中的不同位置检索信息。除了这些探测任务，FILM-7B在真实世界的长上下文任务（例如，在NarrativeQA上的F1分数从23.5提高到26.9）上显著提高了性能，同时在短上下文任务（例如，在MMLU上的准确性从59.3提高到59.2）上保持了可比性。Github链接：https://github.com/microsoft/FILM。
解决问题

本篇论文试图解决长文本处理中的“中间信息丢失”问题，提出了一种新的训练方法IN2，旨在强化长文本处理中任意位置的信息重要性。
关键思路

IN2训练方法基于合成的长文本问答数据集，要求模型对短段落（约128个标记）内的细节信息以及来自两个或多个短段落的信息进行整合和推理。通过将IN2训练应用于Mistral-7B，作者提出了FILM-7B模型，能够有效地利用长文本信息。
其它亮点

论文设计了三个探针任务来评估FILM-7B模型对不同类型长文本的信息检索能力，探究了前向、后向和双向检索模式。实验结果表明，FILM-7B模型能够稳健地检索来自长文本不同位置的信息。此外，FILM-7B模型在现实世界的长文本任务中取得了显著的性能提升，同时在短文本任务上保持了可比较的性能。作者还开源了代码，提供了多个数据集。
相关研究

近年来，长文本处理领域的相关研究非常活跃。其中，BERT、XLNet、ERNIE等预训练语言模型是比较典型的代表。此外，也有一些工作探究了如何利用长文本中的局部信息，如Longformer、Big Bird等。

Make Your LLM Fully Utilize the Context

评论