Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking

向作者提问

NEW

简介

分散性思维是指产生多样性解决方案的认知过程，是人类创造力和问题解决的标志。对于机器来说，在复杂推理问题中采样多样性解决方案轨迹对于稳健的结果、数据增强和增强模型泛化性能至关重要。大型语言模型（LLMs）通常难以生成高质量、多样化的推理。虽然监督微调有助于提高质量，但需要大量监督数据来捕获完整的解决方案多样性。相反，强化学习方法如PPO旨在找到有限的最高奖励解决方案，而忽略解决方案的多样性，类似于收敛思维。为了解决这些限制，我们提出了一种名为“推理流”（FoR）的高效LLM训练方法，可以在最少的数据情况下实现多样化推理。FoR将多步LLM推理表述为从初始状态到终止状态的马尔可夫流。该公式允许采用原则性的GFlowNet方法训练LLM作为策略，能够按比例采样多种推理路径，这些路径的概率与未归一化的奖励成正比。实证结果表明，FoR可以在有限的训练数据（例如15个样例）下发现多样化的高质量解决方案，在三个任务（包括具身化推理（BlocksWorld）、数学难题解决（Game24）和逻辑推理（PrOntoQA））上远远超越当前最先进的方法。代码可在https://github.com/Yu-Fangxu/FoR上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

FoR试图解决大语言模型在生成高质量多样化推理时的困难，尤其是在缺乏监督数据的情况下。
关键思路

FoR提出了一种有效的大语言模型训练方法，将多步推理过程视为从初始状态到终止状态的马尔可夫流，并使用GFlowNet方法训练模型作为策略，以按比例采样多个推理路径。
其它亮点

论文在三个任务中对FoR进行了实验验证，包括体现推理（BlocksWorld）、数学谜题求解（Game24）和逻辑推理（PrOntoQA）。实验结果表明，即使仅有少量的训练数据，FoR也能发现高质量多样化的解决方案，远远超越当前最先进的方法。代码已经开源。
相关研究

最近在这个领域中，还有一些相关的研究，例如《Diversity-Promoting GAN: A Cross-Entropy Based Generative Adversarial Network for Diversified Text Generation》和《Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问