V-STaR: Training Verifiers for Self-Taught Reasoners

简介

常见的大型语言模型（LLMs）自我提升方法，例如STaR（Zelikman等，2022），通过迭代地对自动生成的解决方案微调LLMs来提高它们的问题解决能力。然而，这些方法在此过程中丢弃了大量不正确的解决方案，可能忽略了这些解决方案中有价值的信息。为了解决这个缺点，我们提出了V-STaR，它利用自我提升过程中生成的正确和不正确的解决方案来训练一个使用DPO判断模型生成的解决方案正确性的验证器。这个验证器在推理时用于从众多候选解决方案中选择一个解决方案。多次运行V-STaR会产生逐渐更好的推理器和验证器，在常见的代码生成和数学推理基准测试中，使用LLaMA2模型，V-STaR相对于现有的自我提升和验证方法提高了4%到17%的测试准确性。
图表
解决问题

本文旨在提高大型语言模型的问题解决能力。作者提出了一种新的方法V-STaR，旨在利用自我生成的解决方案中的正确和不正确的解决方案，通过使用DPO训练一个验证器，来判断模型生成的解决方案是否正确。
关键思路

V-STaR方法将正确和不正确的解决方案都用于训练验证器，以便在推理时从众多候选解决方案中选择一个解决方案。多次运行V-STaR会产生越来越好的推理器和验证器，相对于现有的自我改进和验证方法，在常见的代码生成和数学推理基准测试中，使用LLaMA2模型，可以提高4%至17%的测试准确性。
其它亮点

本文提出了一种新的方法V-STaR，可以利用自我生成的解决方案中的正确和不正确的解决方案，通过使用DPO训练一个验证器，来判断模型生成的解决方案是否正确。实验结果表明，V-STaR可以在常见的代码生成和数学推理基准测试中，使用LLaMA2模型，提高4%至17%的测试准确性。本文还提到了该方法的一些局限性和未来的研究方向。
相关研究

在这个领域中，最近的相关研究包括STaR方法（Zelikman等人，2022），它们在自我生成的解决方案上进行迭代微调，以提高它们的问题解决能力。而V-STaR方法则提出了一种新的思路，利用正确和不正确的解决方案来训练验证器，以便在推理时从众多候选解决方案中选择一个解决方案。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论