G-DIG: Towards Gradient-based DIverse and hiGh-quality Instruction Data Selection for Machine Translation

2024年05月21日
  • 简介
    大型语言模型(LLMs)在一般场景中展现出了卓越的能力。指令微调使它们能够在各种任务中与人类对齐。然而,指令微调数据的多样性和质量仍然是两个主要挑战。针对这一点,本文提出了一种新的基于梯度的方法,自动选择高质量和多样化的指令微调数据用于机器翻译。我们的关键创新在于分析单个训练示例在训练过程中如何影响模型。具体而言,我们通过影响函数加上一个小的高质量种子数据集,选择对模型产生有益影响的训练示例作为高质量示例。此外,为增强训练数据的多样性,我们通过对梯度进行聚类和重新采样来最大化它们对模型的影响的多样性。在WMT22和FLORES翻译任务上进行的大量实验证明了我们方法的优越性,深入分析进一步验证了它们的有效性和泛化性。
  • 解决问题
    本篇论文旨在解决指导微调数据的多样性和质量问题。通过分析单个训练示例对模型训练的影响,提出了一种基于梯度的方法来自动选择高质量和多样性的指导微调数据,以用于机器翻译。
  • 关键思路
    本文的关键创新在于使用Influence Function和一个小的高质量种子数据集来选择对模型具有有益影响的训练示例作为高质量示例,并通过对梯度进行聚类和重新采样来增强训练数据的多样性。
  • 其它亮点
    本文在WMT22和FLORES翻译任务上进行了广泛的实验,证明了该方法的优越性,并进行了深入的分析,进一步验证了其有效性和泛化性。值得注意的是,本文提供了开源代码。
  • 相关研究
    在这个领域中,最近还有一些相关研究,例如:“Unsupervised Data Selection for Multilingual Neural Machine Translation”和“Data Selection Strategies for Neural Machine Translation”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论