- 简介近期大型语言模型成功的一个重要因素是使用巨大且不断增长的文本数据集进行无监督预训练。然而,简单地训练模型使用所有可用数据可能不是最优(或可行)的,因为可用文本数据的质量可能会有所不同。过滤数据还可以通过减少所需的训练量来降低模型的碳足迹和财务成本。 数据选择方法旨在确定哪些候选数据点包括在训练数据集中,以及如何适当地从选定的数据点中进行采样。改进数据选择方法的承诺导致该领域的研究数量迅速增加。然而,由于深度学习主要受经验证据和大规模数据上的实验推动,因此很少有组织拥有进行广泛数据选择研究所需的资源。因此,有效的数据选择实践知识已经集中在少数几个组织中,其中许多不公开分享他们的发现和方法。 为了缩小这种知识差距,我们提供了一个对现有文献进行全面审查的综述,介绍了现有方法的分类。通过描述研究的当前情况,本文旨在通过为新老研究人员建立入口来加速数据选择的进展。此外,在本次审查中,我们注意到文献中的明显缺口,并在结论中提出了未来研究的有前途的途径。
- 图表
- 解决问题综述性论文,试图总结现有文献,加速数据选择方法的研究进展。
- 关键思路论文总结了现有的数据选择方法和相关研究领域,提出了分类和评估方法,并指出当前研究中存在的不足之处,为未来的研究提供了方向。
- 其它亮点论文提供了分类和评估方法,对现有的数据选择方法进行了总结和比较;指出了当前研究中存在的不足之处,并提出了未来的研究方向。
- 最近的相关研究包括:'Learning to Select Data for Transfer Learning with Bayesian Optimization','Active Learning for Deep Learning: A Survey','Data Selection for Transfer Learning with Language Models: An Empirical Study'等。
沙发等你来抢
去评论
评论
沙发等你来抢