- 简介通过在大规模的、非结构化的互联网文本上进行预训练,语言模型可以获得大量的世界知识。然而,这种知识获取是数据效率低下的——为了学习一个给定的事实,模型必须在数百到数千个不同的表示中进行训练。当将预训练模型适应于一个小的特定领域的语料库时,这就带来了挑战,因为每个事实可能只出现一次或很少出现。我们提出使用合成持续预训练来弥合这一差距:使用小的特定领域的语料库来合成一个更易于学习的大语料库,然后在合成的语料库上进行持续预训练。我们用EntiGraph实例化了这个提议,EntiGraph是一种合成数据增强算法,可以从源文件中提取显著的实体,然后通过在选定的实体之间建立联系来生成多样化的文本。使用EntiGraph进行合成的持续预训练,可以使语言模型回答与源文件相关的问题和遵循通用指令,而无需访问源文件。如果在推理时可以访问源文件,我们证明了通过我们的方法获得的知识可以与检索增强生成相结合。为了更好地理解这些结果,我们建立了EntiGraph的简单数学模型,并展示了合成数据增强如何“重新排列”知识以实现更高效的学习。
- 图表
- 解决问题如何在小规模领域特定文档的情况下,使预训练的语言模型能够更有效地学习知识?
- 关键思路使用EntiGraph算法进行合成数据增强,将特定文档中的实体提取出来,生成多样性文本,进行继续预训练,从而使语言模型在没有访问特定文档的情况下,能够回答问题和执行指令。
- 其它亮点论文提出了一种新的方法,即使用合成数据增强进行继续预训练,以帮助语言模型更有效地学习知识。实验结果表明,这种方法可以在没有访问特定文档的情况下,使语言模型回答问题和执行指令。此外,论文还提出了一个简单的数学模型来解释这种方法的效果。
- 近期相关研究包括使用不同的数据增强技术来提高语言模型的性能,以及使用检索增强生成来进一步改善语言模型的效果。例如,论文《Data Augmentation for BERT Training via Self-Labeling and Back-Translation》和《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。
沙发等你来抢
去评论
评论
沙发等你来抢