From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

简介

最近的研究表明，大型语言模型在处理长文本输入时往往难以准确检索信息和保持推理能力。为了解决这些限制，我们提出了一种微调方法，利用一个精心设计的合成数据集，包括数字键值检索任务。我们在像GPT-3.5 Turbo和Mistral 7B这样的模型上进行了实验，结果表明，在这个数据集上微调LLMs可以显著提高它们在更长上下文环境下的信息检索和推理能力。我们对微调后的模型进行了分析，说明了从合成任务评估中的技能转移（例如，在GPT-3.5 Turbo的$20$个文档MDQA的位置$10$上，提高了$10.5\%$）。我们还发现，微调后的LLMs在一般基准测试中的表现几乎保持不变，而在其他基线长上下文增强数据上微调LLMs可能会引发幻觉（例如，在TriviaQA上，Mistral 7B在我们的合成数据上微调不会引起性能下降，而其他基线数据则会引起$2.33\%$至$6.19\%$的下降）。我们的研究突显了在合成数据上微调LLMs以提高它们在更长上下文任务上的表现的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决LLMs在处理长文本输入时信息检索和推理能力下降的问题，提出了一种基于合成数据集的微调方法。
关键思路

论文提出了使用一个经过精心设计的合成数据集进行微调的方法，显著提高了LLMs在长文本输入情境下的信息检索和推理能力。
其它亮点

论文的实验结果表明，使用合成数据集进行微调可以将模型的技能从合成数据集转移到真实任务评估中，同时不会对通用基准测试的表现造成太大影响。此外，与使用其他基线长文本增强数据进行微调相比，使用论文提出的合成数据集进行微调可以避免模型出现幻觉。
相关研究

近期的相关研究包括使用不同的微调数据集来提高LLMs的性能，以及使用不同的模型架构来解决长文本输入下的信息检索和推理问题。

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

提问交流

提问交流