MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models

2024年06月10日
  • 简介
    本文介绍了一种基于数据影响模型的模型感知数据选择方法(MATES),该方法可以连续地适应预训练模型的不断变化的数据偏好,并选择最适合当前预训练进度的数据,从而提高语言模型预训练的效率。与当前依靠手工制定规则或更大的参考模型的数据选择方法不同,MATES方法可以动态地捕捉预训练过程中数据偏好的演变。具体来说,我们微调一个小型的数据影响模型,以近似通过本地探测预训练模型收集到的理想数据偏好信号,并相应地选择下一阶段的数据。在Pythia和C4数据集上的实验表明,MATES方法在零样本和少样本情况下均显著优于随机数据选择,并且比利用更大的参考模型的最近数据选择方法提高了两倍的性能,并将达到一定性能所需的总FLOPs减少了一半。进一步的分析验证了预训练模型的不断变化的数据偏好和我们的数据影响模型捕捉它们的有效性。我们的代码已在https://github.com/cxcscmu/MATES上开源。
  • 图表
  • 解决问题
    如何通过数据选择来提高语言模型的预训练效率?当前的数据选择方法无法动态地适应预训练模型的演变。
  • 关键思路
    提出了一种基于数据影响模型(MATES)的模型感知数据选择方法,该方法可以动态地适应预训练模型的演变,并选择最有效的数据进行下一阶段的预训练。
  • 其它亮点
    实验结果表明,MATES在零样本和少样本情况下都显著优于随机数据选择和其他数据选择方法,并且可以减少达到某些性能所需的总FLOPs一半。开源代码已经发布。
  • 相关研究
    相关研究包括手工规则和参考模型的数据选择方法,以及其他预训练模型的改进方法,如GPT-3、T5等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论