- 简介合成数据在加速语言模型的开发方面变得越来越重要,无论是大型还是小型的模型。尽管有几个成功的用例,研究人员也提出了关于模型崩溃和模仿其他模型的缺点的担忧。这种差异可以归因于合成数据的质量和多样性不同。有效使用合成数据通常需要人类在筛选数据方面付出大量的努力。我们专注于将合成数据用于后训练,具体来说是通过强大的模型创建数据来教授另一个模型新的技能或行为,我们将这种设置称为生成式教学。我们介绍了AgentInstruct,这是一个可扩展的代理框架,用于自动创建大量多样化和高质量的合成数据。AgentInstruct可以创建提示和响应,仅使用文本文档和代码文件等原始数据源作为种子。我们通过创建一个后训练数据集,其中包含2500万对数据,来展示AgentInstruct的实用性,以教授语言模型不同的技能,例如文本编辑、创意写作、工具使用、编码、阅读理解等。该数据集可用于任何基础模型的教学调整。我们使用数据对Mistral-7b进行后训练。当将结果模型Orca-3与Mistral-7b-Instruct(使用相同的基础模型)进行比较时,我们观察到在许多基准测试中有显著的改进。例如,在AGIEval上有40%的改进,在MMLU上有19%的改进,在GSM8K上有54%的改进,在BBH上有38%的改进,在AlpacaEval上有45%的改进。此外,它始终优于其他模型,如LLAMA-8B-instruct和GPT-3.5-turbo。
- 图表
- 解决问题论文旨在探讨使用合成数据进行后训练的有效性,提出了一种名为Generative Teaching的新方法。同时,论文也试图解决合成数据质量和多样性的问题。
- 关键思路论文提出了一个名为AgentInstruct的框架,可以自动创建大量多样化、高质量的合成数据。该框架可以使用原始数据源(如文本文档和代码文件)作为种子来创建提示和响应,用于教授模型新的技能或行为。使用这种方法可以显著提高模型的性能。
- 其它亮点论文使用AgentInstruct框架创建了一个后训练数据集,包含2500万对数据,用于教授语言模型不同的技能,如文本编辑、创意写作、工具使用、编码和阅读理解等。该数据集可用于任何基础模型的指导调整。实验结果表明,使用该数据集进行后训练可以显著提高模型的性能,并在多个基准测试中取得了比其他模型更好的效果。
- 最近的相关研究包括使用合成数据进行训练的其他方法,如GAN生成数据和数据增强等。
沙发等你来抢
去评论
评论
沙发等你来抢