- 简介近期的链式思考(CoT)解码技术使得大型语言模型(LLMs)能够生成复杂问题解决的明确逻辑推理路径。但研究表明这些路径并不总是故意和最优的。树状思考(ToT)方法采用树搜索来广泛探索推理空间,找到CoT解码可能忽略的更好的推理路径。然而,这种思考需要付出显著增加的推理复杂度。在本文中,我们展示了通过利用ToT构建的搜索树来微调LLMs,使得CoT能够达到相似或更好的性能,从而避免了重大的推理负担。这通过链式偏好优化(CPO)实现,其中LLMs被微调以使CoT推理路径的每一步与ToT的步骤对齐,利用树搜索过程中的内在偏好信息。广泛的实验结果表明,CPO显著提高了LLM在解决各种复杂问题方面的性能,包括问答、事实验证和算术推理,证明了其有效性。我们的代码可在https://github.com/sail-sg/CPO 上获取。
- 图表
- 解决问题本论文试图解决使用CoT解码方法时,生成的推理路径不一定是最优的问题,提出了使用ToT方法进行树搜索,但这会带来显著的推理复杂度。作者提出了一种名为CPO的方法,通过利用ToT构建的搜索树对LLMs进行微调,从而使CoT能够实现类似甚至更好的性能,避免了大量的推理负担。
- 关键思路使用CPO方法,通过微调LLMs,将CoT的推理路径与ToT的路径对齐,从而避免了使用ToT方法带来的推理复杂度,实现了更好的性能。
- 其它亮点论文通过实验表明,CPO方法显著提高了LLM在解决各种复杂问题方面的性能,包括问答、事实验证和算术推理。作者提供了开源代码,可用于进一步研究。
- 最近在这个领域中,也有其他一些关于推理路径生成的研究,如《Leveraging Grammar and Reinforcement Learning for Neural Program Synthesis》和《Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding》。
沙发等你来抢
去评论
评论
沙发等你来抢