Synthetic continued pretraining

Zitong Yang ,
Neil Band ,
Shuangping Li ,
Emmanuel Candès ,
Tatsunori Hashimoto
1376
热度
2024年09月11日
  • 简介
    通过在大规模的、非结构化的互联网文本上进行预训练,语言模型可以获得大量的世界知识。然而,这种知识获取是数据效率低下的——为了学习一个给定的事实,模型必须在数百到数千个不同的表示中进行训练。当将预训练模型适应于一个小的特定领域的语料库时,这就带来了挑战,因为每个事实可能只出现一次或很少出现。我们提出使用合成持续预训练来弥合这一差距:使用小的特定领域的语料库来合成一个更易于学习的大语料库,然后在合成的语料库上进行持续预训练。我们用EntiGraph实例化了这个提议,EntiGraph是一种合成数据增强算法,可以从源文件中提取显著的实体,然后通过在选定的实体之间建立联系来生成多样化的文本。使用EntiGraph进行合成的持续预训练,可以使语言模型回答与源文件相关的问题和遵循通用指令,而无需访问源文件。如果在推理时可以访问源文件,我们证明了通过我们的方法获得的知识可以与检索增强生成相结合。为了更好地理解这些结果,我们建立了EntiGraph的简单数学模型,并展示了合成数据增强如何“重新排列”知识以实现更高效的学习。
  • 图表
  • 解决问题
    如何在小规模领域特定文档的情况下,使预训练的语言模型能够更有效地学习知识?
  • 关键思路
    使用EntiGraph算法进行合成数据增强,将特定文档中的实体提取出来,生成多样性文本,进行继续预训练,从而使语言模型在没有访问特定文档的情况下,能够回答问题和执行指令。
  • 其它亮点
    论文提出了一种新的方法,即使用合成数据增强进行继续预训练,以帮助语言模型更有效地学习知识。实验结果表明,这种方法可以在没有访问特定文档的情况下,使语言模型回答问题和执行指令。此外,论文还提出了一个简单的数学模型来解释这种方法的效果。
  • 相关研究
    近期相关研究包括使用不同的数据增强技术来提高语言模型的性能,以及使用检索增强生成来进一步改善语言模型的效果。例如,论文《Data Augmentation for BERT Training via Self-Labeling and Back-Translation》和《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论