Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

简介

大型语言模型是在大量网络数据的基础上进行训练的，这些数据通常是非结构化、嘈杂且措辞不当的。当前的扩展规律表明，从这样的数据中学习需要充足的计算和数据，这些计算和数据的数量随着所训练模型的大小而增加。这是不可行的，因为预训练所需的大量计算成本和时间，以及网络上高质量数据的即将短缺。在这项工作中，我们提出了“网络改述增强预训练”（$\textbf{WRAP}$）方法，该方法使用一个现成的经过指令调整的模型，提示其以特定风格（如“像维基百科”或“问答格式”）改述网络文档，以共同预训练实际和合成的改述语言模型。首先，我们展示了在本来就嘈杂的C4数据集上使用WRAP可以将预训练加速约3倍。在相同的预训练计算预算下，它平均提高了Pile数据集不同子集的困惑度超过10％，并将13个任务的零-shot问题回答准确性提高了超过2％。其次，我们研究了改述风格对模型性能的影响，为我们提供了洞察力，了解训练数据的组成如何影响LLMs在OOD环境中的性能。我们的收益归因于改述的合成数据比真实数据更有用，因为它（i）包含接近下游评估风格的风格多样性，（ii）比网络抓取的数据更“优质”。
图表
解决问题

论文提出了Web Rephrase Augmented Pre-training (WRAP)方法，旨在解决大规模语言模型预训练中存在的数据稀缺和计算资源消耗大的问题。同时，论文也验证了在C4数据集上使用WRAP可以显著提高预训练速度和模型性能。
关键思路

WRAP方法使用一个经过指令调整的模型来对网络文档进行不同风格的改写，生成真实和合成的数据用于大规模语言模型预训练。论文发现，使用WRAP方法可以在C4数据集上将预训练速度提高3倍，并且在相同的预训练计算预算下，可以将困惑度平均提高10%以上，并且可以将13个任务的零样本问答准确性提高2%以上。
其它亮点

论文的实验设计充分，使用了C4数据集和多个任务进行了验证。WRAP方法的提出可以在大规模语言模型预训练中解决数据稀缺和计算资源消耗大的问题。论文还探讨了不同的改写风格对模型性能的影响，并发现合成数据的效用更高。值得深入研究的是，如何进一步提高合成数据的质量和多样性。
相关研究

在大规模语言模型预训练领域，最近的相关研究包括：GPT-3、Turing-NLG、Megatron等。

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

评论