Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

简介

这篇文章探讨了对于数学推理任务，如何有效地训练语言模型（LMs）需要高质量的监督微调数据。除了从人类专家那里获得注释之外，常见的替代方法是从更大更强大的LMs中进行采样。然而，这种知识蒸馏方法可能会很昂贵且不稳定，特别是当依赖于类似于GPT-4这样的闭源专有LMs时，它们的行为通常是不可预测的。在这项工作中，我们展示了通过自我训练可以增强小规模LMs的推理能力，这是一种模型从自己的输出中学习的过程。我们还展示了传统的自我训练可以通过一种称为直接偏好优化（DPO）的偏好学习算法进一步增强。通过将DPO集成到自我训练中，我们利用偏好数据来指导LMs朝着更准确和多样的思路链推理方向发展。我们使用不同的基础模型在各种数学推理任务上评估了我们的方法。我们的实验表明，与依赖于大型专有LMs相比，这种方法不仅提高了LMs的推理性能，而且提供了一种更具成本效益和可扩展性的解决方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探讨如何通过自我训练来提高小型语言模型在数学推理任务中的性能，以替代昂贵且不稳定的知识蒸馏方法。
关键思路

通过自我训练和直接偏好优化算法（DPO）相结合，利用偏好数据来指导语言模型实现更准确和多样化的思维链推理。
其它亮点

论文使用不同的基础模型，在各种数学推理任务上评估了该方法。实验结果表明，该方法不仅提高了语言模型的推理性能，而且与依赖于大型专有语言模型相比，提供了更具成本效益和可扩展性的解决方案。
相关研究

在最近的研究中，也有一些关于语言模型在数学推理任务中的研究，例如《MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms》和《Neural Arithmetic Logic Units》等。

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

提问交流

提问交流