Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking

2024年06月09日
  • 简介
    分散性思维是指产生多样性解决方案的认知过程,是人类创造力和问题解决的标志。对于机器来说,在复杂推理问题中采样多样性解决方案轨迹对于稳健的结果、数据增强和增强模型泛化性能至关重要。大型语言模型(LLMs)通常难以生成高质量、多样化的推理。虽然监督微调有助于提高质量,但需要大量监督数据来捕获完整的解决方案多样性。相反,强化学习方法如PPO旨在找到有限的最高奖励解决方案,而忽略解决方案的多样性,类似于收敛思维。为了解决这些限制,我们提出了一种名为“推理流”(FoR)的高效LLM训练方法,可以在最少的数据情况下实现多样化推理。FoR将多步LLM推理表述为从初始状态到终止状态的马尔可夫流。该公式允许采用原则性的GFlowNet方法训练LLM作为策略,能够按比例采样多种推理路径,这些路径的概率与未归一化的奖励成正比。实证结果表明,FoR可以在有限的训练数据(例如15个样例)下发现多样化的高质量解决方案,在三个任务(包括具身化推理(BlocksWorld)、数学难题解决(Game24)和逻辑推理(PrOntoQA))上远远超越当前最先进的方法。代码可在https://github.com/Yu-Fangxu/FoR上找到。
  • 作者讲解
  • 图表
  • 解决问题
    FoR试图解决大语言模型在生成高质量多样化推理时的困难,尤其是在缺乏监督数据的情况下。
  • 关键思路
    FoR提出了一种有效的大语言模型训练方法,将多步推理过程视为从初始状态到终止状态的马尔可夫流,并使用GFlowNet方法训练模型作为策略,以按比例采样多个推理路径。
  • 其它亮点
    论文在三个任务中对FoR进行了实验验证,包括体现推理(BlocksWorld)、数学谜题求解(Game24)和逻辑推理(PrOntoQA)。实验结果表明,即使仅有少量的训练数据,FoR也能发现高质量多样化的解决方案,远远超越当前最先进的方法。代码已经开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Diversity-Promoting GAN: A Cross-Entropy Based Generative Adversarial Network for Diversified Text Generation》和《Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问