Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement

2024年09月17日
  • 简介
    在指令数据上微调大型语言模型对于增强预训练知识和提高指令跟随能力至关重要。随着指令数据集的增多,选择有效训练数据的最佳子集变得越来越重要。本文解决了这个问题:我们如何确定有效训练的最佳数据子集?虽然现有的研究经常强调局部标准,如实例质量,用于子集选择,但我们认为,侧重于数据多样性的全局方法更为关键。我们的方法采用k-means聚类,以确保所选子集有效地代表整个数据集。我们提出了一种启发式的迭代改进方法,受主动学习技术的启发,从聚类中重新采样实例,在每个训练迭代中重新评估每个聚类的重要性和采样权重。这种方法减少了异常值的影响,并自动过滤掉包含低质量数据的聚类。通过在自然语言推理、通用世界知识、代码和数学推理任务上进行广泛评估,并微调来自不同家族的模型,我们观察到了一致的改进,相对于随机选择,提高了7%,相对于最先进的采样方法,提高了3.8%。我们的工作强调了多样性优先采样在微调LLMs以提高在广泛评估任务中的性能方面的重要性。我们的代码可在https://github.com/for-ai/iterative-data-selection上获得。
  • 图表
  • 解决问题
    如何确定有效训练的最佳数据子集?
  • 关键思路
    采用全局方法,注重数据多样性,使用k-means聚类和迭代精炼方法选择数据子集
  • 其它亮点
    实验结果表明,该方法在自然语言推理、代码和数学推理等任务上均有显著提高,比随机选择和现有采样方法都更好;代码已经开源
  • 相关研究
    目前的研究强调局部标准,如实例质量,而本文提出的全局方法注重数据多样性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论