Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

简介

近期的链式思考（CoT）解码技术使得大型语言模型（LLMs）能够生成复杂问题解决的明确逻辑推理路径。但研究表明这些路径并不总是故意和最优的。树状思考（ToT）方法采用树搜索来广泛探索推理空间，找到CoT解码可能忽略的更好的推理路径。然而，这种思考需要付出显著增加的推理复杂度。在本文中，我们展示了通过利用ToT构建的搜索树来微调LLMs，使得CoT能够达到相似或更好的性能，从而避免了重大的推理负担。这通过链式偏好优化（CPO）实现，其中LLMs被微调以使CoT推理路径的每一步与ToT的步骤对齐，利用树搜索过程中的内在偏好信息。广泛的实验结果表明，CPO显著提高了LLM在解决各种复杂问题方面的性能，包括问答、事实验证和算术推理，证明了其有效性。我们的代码可在https://github.com/sail-sg/CPO 上获取。
图表
解决问题

本论文试图解决使用CoT解码方法时，生成的推理路径不一定是最优的问题，提出了使用ToT方法进行树搜索，但这会带来显著的推理复杂度。作者提出了一种名为CPO的方法，通过利用ToT构建的搜索树对LLMs进行微调，从而使CoT能够实现类似甚至更好的性能，避免了大量的推理负担。
关键思路

使用CPO方法，通过微调LLMs，将CoT的推理路径与ToT的路径对齐，从而避免了使用ToT方法带来的推理复杂度，实现了更好的性能。
其它亮点

论文通过实验表明，CPO方法显著提高了LLM在解决各种复杂问题方面的性能，包括问答、事实验证和算术推理。作者提供了开源代码，可用于进一步研究。
相关研究

最近在这个领域中，也有其他一些关于推理路径生成的研究，如《Leveraging Grammar and Reinforcement Learning for Neural Program Synthesis》和《Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding》。

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

评论