- 简介指令调整可以提高大型语言模型(LLMs)的推理能力,数据质量和可扩展性是关键因素。大多数指令调整数据来自于人类众包或GPT-4蒸馏。我们提出了一种范例,可以高效地从预训练网络语料库中收集1000万个自然存在的指令数据,以增强LLM的推理能力。我们的方法包括(1)召回相关文档,(2)提取指令-响应对,以及(3)使用开源LLMs对提取的对进行精细调整。在这个数据集上微调基本LLMs,我们建立了MAmmoTH2模型,这显著提高了推理基准的性能。值得注意的是,MAmmoTH2-7B(Mistral)在MATH上的表现从11%提高到34%,在GSM8K上从36%提高到67%,而没有在任何领域内的数据上进行训练。进一步在公共指令调整数据集上训练MAmmoTH2,可以得到MAmmoTH2-Plus,它在几个推理和聊天机器人基准测试上实现了最先进的性能。我们的工作展示了如何在不需要昂贵的人工注释或GPT-4蒸馏的情况下收集大规模、高质量的指令数据,为构建更好的指令调整数据提供了新的范例。
- 图表
- 解决问题论文试图通过从预训练网络语料库中提取自然存在的指令数据,提高大型语言模型的推理能力,解决指令调整数据质量和可扩展性的问题。
- 关键思路论文提出了一种有效的方法,通过召回相关文档、提取指令-响应对和使用开源LLMs来优化提取的数据,构建MAmmoTH2模型,从而显著提高推理基准的性能。
- 其它亮点论文提出的方法可以在不需要昂贵的人工注释或GPT-4蒸馏的情况下,收集大规模高质量的指令数据,提供了一种构建更好的指令调整数据的新范例。MAmmoTH2-7B(Mistral)在不训练任何领域内数据的情况下,将性能从11%提高到34%(MATH),从36%提高到67%(GSM8K),而进一步训练MAmmoTH2则达到了在几个推理和聊天机器人基准上的最新性能。
- 最近的相关研究包括使用GPT-4蒸馏数据和人类众包数据来提高大型语言模型的指令调整能力的研究。
沙发等你来抢
去评论
评论
沙发等你来抢