Analysing The Impact of Sequence Composition on Language Model Pre-Training

简介

大多数语言模型预训练框架将多个文档连接成固定长度的序列，并使用因果掩码来计算每个标记在其上下文中的可能性。由于其简单和高效，这种策略被广泛采用。然而，迄今为止，预训练序列组合策略对模型的泛化特性的影响仍未得到充分探讨。在这项工作中，我们发现应用因果掩码可能会导致在预训练期间包含来自前面文档的干扰信息，从而对语言建模和下游任务的性能产生负面影响。在文档内因果掩码中，每个标记的可能性仅取决于同一文档中的前一个标记，消除了来自前面文档的潜在干扰信息，从而显着提高了性能。此外，我们发现连接相关文档可以减少预训练期间的一些潜在干扰，并且我们提出的高效检索式序列构建方法BM25Chunk可以提高语言模型的上下文学习(+11.6%)、知识记忆(+9.8%)和上下文利用(+7.2%)能力，而不牺牲效率。
图表
解决问题

探索语言模型预训练序列构成对模型泛化性能的影响，并提出一种新的序列构建方法
关键思路

采用文档内因果掩码可以消除来自前一个文档的干扰信息，提高语言模型的性能；同时，相关文档的拼接可以减少一些干扰，提高模型的性能；提出了一种高效的检索式序列构建方法 BM25Chunk，可以在不牺牲效率的情况下提高模型的上下文学习、知识记忆和上下文利用能力。
其它亮点

实验结果表明，文档内因果掩码可以提高语言模型在语言建模和下游任务中的性能，相关文档的拼接和BM25Chunk方法也可以提高模型的性能。实验使用了多个数据集进行验证，并开源了代码。该研究为语言模型预训练序列构建方法提供了新思路。
相关研究

近期的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。

Analysing The Impact of Sequence Composition on Language Model Pre-Training

评论