Orca: Progressive Learning from Complex Explanation Traces of GPT-4

Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah
[Microsoft Research]

Orca:从GPT-4的复杂解释轨迹中渐进式学习

要点:

  • 动机:针对小型模型通过模仿学习提高性能的问题。现有模型存在一系列问题,包括从浅层大型基础模型输出获取有限的模仿信号、小规模同质化训练数据,以及缺乏严格评估导致高估小模型的能力。因此,需要解决这些挑战。
  • 方法:开发了Orca,一个拥有130亿参数的模型,学习模仿大型基础模型的推理过程。Orca从GPT-4获得丰富的信号,包括解释轨迹、逐步思维过程和其他复杂指令,通过ChatGPT的教师辅助进行指导。为了促进这种渐进式学习,论文利用大规模和多样化的模仿数据进行精心的采样和选择。
  • 优势:Orca在复杂的零样本推理基准测试中超过了传统的最先进微调模型,如Vicuna-13B,提升了100%以上,并在AGIEval上提升了42%。此外,Orca在BBH基准测试上达到了与ChatGPT相当的水平,并在SAT、LSAT、GRE和GMAT等专业和学术考试中显示出竞争性能。研究表明,从逐步解释中学习是改进模型能力和技能的有希望的方向。

介绍了Orca,一个拥有130亿参数的模型,通过学习大型基础模型的推理过程,提高了小型模型的性能和能力。

https://arxiv.org/abs/2306.02707 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除