Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model

简介

大型语言模型最初是在有限的上下文长度下进行预训练的，通过在具有扩展上下文的语料库上继续训练，可以更好地处理长文本。然而，由于长文档在不同领域中的稀缺性和不均匀分布，获取有效的长上下文数据具有挑战性。为了解决这个问题，我们提出了一种基于查询的数据合成方法，简称为 Quest。Quest 是一种可解释的方法，基于这样的观察结果：通过相似查询检索到的文档是相关但不冗余的，因此非常适合用于合成长上下文数据。该方法还具有可扩展性，并能够构建大量的长上下文数据。使用 Quest，我们合成了一个长上下文数据集，长度可达 128k，显著优于其他数据合成方法在多个长上下文基准数据集上的表现。此外，我们通过扩展定律实验进一步验证了 Quest 方法的可预测性，使其成为推进长上下文模型的可靠解决方案。
图表
解决问题

如何解决长文本处理中数据稀缺和分布不均的问题？
关键思路

提出了一种基于查询的数据合成方法 Quest，利用相似查询的文档合成长文本数据集，具有可解释性和可扩展性。
其它亮点

使用 Quest 方法合成的长文本数据集在多个基准数据集上表现显著优于其他数据合成方法。通过扩展定律实验证明了 Quest 方法的可预测性。
相关研究

与本文相关的研究包括使用生成模型合成长文本数据的方法，如 GPT-2，以及使用远程监督等方法合成数据的研究。

Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model

评论