Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models

简介

这篇论文主要介绍了如何通过自我完善的方法来提高小型语言模型的推理能力。在传统方法中，通过对大型语言模型进行监督微调来实现小型语言模型的推理能力提升，但这种方法只能依赖于提供的演示数据，缺乏强大的泛化能力。本文提出了自我完善指导微调方法，该方法通过两个阶段实现推理能力的转移和完善。首先，通过对大型语言模型提供的演示数据进行指导微调，将推理能力从大型语言模型转移到小型语言模型中。然后，通过基于直接偏好优化算法的完善启发式方法，让小型语言模型自我完善能力。具体而言，第二阶段的完善启发式方法基于自动生成的响应路径，通过从大型语言模型提供的真实答案中提供奖励，来激励小型语言模型自我完善其推理能力。实验结果表明，该方法在常识和数学推理任务中表现出色，在领域内和领域外的情况下都显著优于指导微调方法，实现了小型和大型语言模型的推理能力对齐。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决小型语言模型和大型语言模型之间推理能力不匹配的问题，提出了一种自我完善指令调整方法。
关键思路

该方法通过两个阶段实现推理能力的自我完善，第一阶段通过指令调整将大型语言模型的推理能力传递给小型语言模型，第二阶段通过直接偏好优化算法，自动采样生成的响应并使用大型语言模型提供的真实答案奖励小型语言模型，从而实现小型语言模型推理能力的自我完善。
其它亮点

实验结果表明，该方法在常识和数学推理任务中均显著优于指令调整方法，不仅在领域内，而且在领域外的情况下也是如此。此外，该论文还提供了相关数据集和代码，值得进一步研究。
相关研究

在这个领域中，最近的相关研究包括《Language Models are Few-Shot Learners》、《GPT-3: Language Models are Few-Shot Learners》等。

Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models

提问交流

提问交流