- 简介指导调整是一种标准技术,用于在初始预训练阶段后将大型语言模型与最终任务和用户偏好对齐。最近的研究表明,数据工程在指导调整中起着至关重要的作用——当选择适当的数据时,只需要有限的数据就能实现卓越的性能。然而,我们仍然缺乏对于什么样的指导调整数据是好的以及如何自动有效地选择数据的原则性理解。在这项工作中,我们深入探讨了用于对齐的自动数据选择策略。我们从控制研究开始,测量数据的三个维度:复杂性、质量和多样性,沿着这些维度,我们检查现有方法并引入新的增强数据测量的技术。随后,我们提出了一种基于这些测量的简单策略来选择数据样本。我们展示了deita(Data-Efficient Instruction Tuning for Alignment),这是一系列使用我们提出的方法自动选择数据样本,从LLaMA和Mistral模型微调的模型。实证结果表明,deita仅使用6K SFT训练数据样本,就可以表现得比最先进的开源对齐模型更好或相当——比基准模型使用的数据少了10倍以上。当使用直接优化偏好(DPO)进一步训练时,使用6K SFT和10K DPO样本训练的deita-Mistral-7B + DPO实现了7.55 MT-Bench和90.06%的AlpacaEval得分。我们预计这项工作将提供自动数据选择工具,促进数据有效对齐。我们发布我们的模型以及所选的数据集,供未来的研究人员更有效地对齐模型。
- 图表
- 解决问题本论文旨在解决指导微调数据自动选择的问题,以达到数据高效利用的目的。
- 关键思路论文提出了一种基于数据复杂度、质量和多样性的自动数据选择策略,并使用该策略选择数据样本进行微调,从而实现数据高效利用。
- 其它亮点论文通过对数据的复杂度、质量和多样性进行测量,提出了一种自动数据选择策略,并使用该策略进行微调,结果表明该方法可以在仅使用6K SFT训练数据样本的情况下,达到与基准模型相当甚至更好的性能。此外,论文还提供了开源代码和选定数据集,为未来的研究提供了工具。
- 在这个领域中,最近的相关研究包括:《On the Impact of Transfer Learning for Neural Machine Translation》、《How to Fine-Tune BERT for Text Classification?》等。
沙发等你来抢
去评论
评论
沙发等你来抢