标题:谷歌|Deduplicating Training Data Makes Language Models Better(去重训练数据使语言模型更好)

简介:我们发现现有的语言建模数据集包含许多几乎重复的示例和长重复的子字符串。 作为结果,超过 1% 的语言模型在这些语言模型上的自发输出数据集是从训练数据中逐字复制的。 我们开发了两个工具,允许我们对训练数据集进行重复数据删除——例如从 C4 中删除一个重复超过60,000次的61个单词的英语句子。 重复数据删除使我们可以训练模型发出的记忆文本少十倍经常并且需要更少的训练步骤来达到相同或更好的精度。 我们还可以减少训练测试重叠,这会影响超过4%的标准数据集验证集,从而允许更准确评估。

代码下载:https://github.com/google-research/deduplicate-text-datasets

论文地址:https://arxiv.org/pdf/2107.06499v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除