Synthetic continued pretraining

简介

通过在大规模的、非结构化的互联网文本上进行预训练，语言模型可以获得大量的世界知识。然而，这种知识获取是数据效率低下的——为了学习一个给定的事实，模型必须在数百到数千个不同的表示中进行训练。当将预训练模型适应于一个小的特定领域的语料库时，这就带来了挑战，因为每个事实可能只出现一次或很少出现。我们提出使用合成持续预训练来弥合这一差距：使用小的特定领域的语料库来合成一个更易于学习的大语料库，然后在合成的语料库上进行持续预训练。我们用EntiGraph实例化了这个提议，EntiGraph是一种合成数据增强算法，可以从源文件中提取显著的实体，然后通过在选定的实体之间建立联系来生成多样化的文本。使用EntiGraph进行合成的持续预训练，可以使语言模型回答与源文件相关的问题和遵循通用指令，而无需访问源文件。如果在推理时可以访问源文件，我们证明了通过我们的方法获得的知识可以与检索增强生成相结合。为了更好地理解这些结果，我们建立了EntiGraph的简单数学模型，并展示了合成数据增强如何“重新排列”知识以实现更高效的学习。
图表
解决问题

如何在小规模领域特定文档的情况下，使预训练的语言模型能够更有效地学习知识？
关键思路

使用EntiGraph算法进行合成数据增强，将特定文档中的实体提取出来，生成多样性文本，进行继续预训练，从而使语言模型在没有访问特定文档的情况下，能够回答问题和执行指令。
其它亮点

论文提出了一种新的方法，即使用合成数据增强进行继续预训练，以帮助语言模型更有效地学习知识。实验结果表明，这种方法可以在没有访问特定文档的情况下，使语言模型回答问题和执行指令。此外，论文还提出了一个简单的数学模型来解释这种方法的效果。
相关研究

近期相关研究包括使用不同的数据增强技术来提高语言模型的性能，以及使用检索增强生成来进一步改善语言模型的效果。例如，论文《Data Augmentation for BERT Training via Self-Labeling and Back-Translation》和《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。

评论