AlpaGasus: Training A Better Alpaca with Fewer Data

解决问题:本论文旨在解决指令微调数据中存在的低质量数据对指令跟随模型的影响问题,提出了一种简单有效的数据筛选策略。这是一个新问题,因为以往的研究很少关注指令微调数据中的质量问题。

关键思路:本论文的关键思路是使用强大的大语言模型(LLM)自动识别和删除低质量数据,从而得到高质量的指令微调数据,从而提高指令跟随模型的性能和训练速度。相比当前领域的研究,本论文的思路是更注重数据质量和数据筛选的方法。

其他亮点:本论文的实验表明,使用AlpaGasus得到的指令跟随模型在多个测试集上表现优异,并且训练速度比Alpaca快5.7倍。此外,论文还提供了项目页面和开源代码。本论文的工作值得进一步深入研究,包括如何将数据筛选策略应用于其他指令微调数据,以及如何进一步提高指令跟随模型的性能。

关于作者:本论文的主要作者来自多个机构,包括谷歌、微软和华盛顿大学。他们之前的代表作包括LAMB和BERT等大语言模型的研究。

相关研究:近期其他相关的研究包括《Few-shot Learning with Graph Neural Networks》(作者:Zhang et al.,机构:MIT)、《Learning to Learn from Noisy Labels with Distillation》(作者:Xie et al.,机构:CMU)等。

论文摘要:本文提出了一种简单而有效的数据选择策略,使用强大的语言模型(例如ChatGPT)自动识别和删除低质量数据,从而过滤掉Alpaca数据集中的错误或不相关响应。使用这种策略,作者提出了一个新的模型AlpaGasus,仅在从52k Alpaca数据中筛选出的9k高质量数据上进行微调。在多个测试集上,AlpaGasus相比原始的Alpaca表现显著提升,GPT-4的13B变体在测试任务上的表现达到了其教师语言模型(即Text-Davinci-003)的90%以上。此外,AlpaGasus训练速度更快,7B变体的训练时间从Alpaca的80分钟缩短到了14分钟。总的来说,AlpaGasus展示了一种新的数据中心的指令微调方法,可以普遍应用于指令微调数据,从而实现更快的训练和更好的指令跟随模型。作者的项目页面可在以下网址找到:\url{https://lichang-chen.github.io/AlpaGasus/}。

内容中包含的图片若涉及版权问题,请及时与我们联系删除