北大、微软学者提出大模型推理新方法DiVeRSe，实现六个SOTA

最近北大、微软的学者联合发布了一篇论文，用以优化大模型的推理效率。

论文摘要如下：

GPT-3和PaLM等大型语言模型在很少的学习中表现出了显着的性能。但是，他们仍然在计算任务（例如算术基准GSM8K）中苦苦挣扎。最近的进展有意指导语言模型在产生最终答案之前生成一系列推理步骤，成功地将GSM8K基准测试从17.9%提高到58.1%。在本文中，我们提出了一种新方法DiVeRSe（推理步骤上的多样化验证器），以进一步提高其推理能力。DiVeRSe首先探索了不同的提示，以增强推理路径的多样性。其次，DiVeRSe引入了一个验证器来区分好答案和坏答案，以获得更好的加权投票。最后，DiVeRSe验证每个步骤的正确性，而不是一个整体中的所有步骤。我们使用最新的语言模型code-davinci-002进行了广泛的实验，并证明DiVeRSe可以在八个推理基准中的六个（例如，GSM8K 74.4%至83.2%）上实现新的最先进的性能，优于具有540B参数的PaLM模型。