Reverse Thinking Makes LLMs Stronger Reasoners

2024年11月29日
  • 简介
    逆向思维在人类推理中发挥着关键作用。人类不仅可以从问题推导出解决方案,还可以反向思考,即从解决方案出发,回溯到问题。这通常能增强整体推理表现,因为它使正向和反向思维之间的一致性检查成为可能。为了使大型语言模型(LLMs)能够进行逆向思维,我们引入了逆向增强思维(RevThink),这是一个由数据增强和学习目标组成的框架。在RevThink中,我们通过从教师模型收集结构化的正向-反向推理来扩充数据集,这些推理包括:(1) 原始问题,(2) 正向推理,(3) 反向问题,以及 (4) 反向推理。然后,我们采用三个目标以多任务学习的方式训练一个较小的学生模型:(a) 从问题生成正向推理,(b) 从问题生成反向问题,以及 (c) 从反向问题生成反向推理。实验结果显示,在涵盖常识、数学和逻辑推理的12个数据集上,该方法平均提升了学生模型的零样本性能13.53%,并比最强的知识蒸馏基线提高了6.84%。此外,我们的方法展示了样本效率——仅使用训练数据中10%的正确正向推理,就能超过标准微调方法在10倍更多正向推理上的表现。RevThink还表现出对分布外保留数据集的强大泛化能力。
  • 图表
  • 解决问题
    论文试图解决如何增强大型语言模型(LLMs)的逆向思维能力,以提高其在各种推理任务中的性能。这是一个新的问题,旨在通过逆向思维来提升模型的一致性和准确性。
  • 关键思路
    论文提出了一种名为Reverse-Enhanced Thinking (RevThink)的框架,该框架通过数据增强和多任务学习目标来训练一个较小的学生模型。具体来说,RevThink收集了教师模型生成的结构化前向-后向推理数据,并通过三个任务训练学生模型:(a) 从问题生成前向推理,(b) 从问题生成后向问题,(c) 从后向问题生成后向推理。这种方法不仅提高了模型的推理性能,还增强了样本效率和泛化能力。
  • 其它亮点
    论文在12个涵盖常识、数学和逻辑推理的数据集上进行了实验,显示了平均13.53%的零样本性能提升和6.84%的最强知识蒸馏基线性能提升。此外,RevThink在使用仅10%的正确前向推理数据时,性能超过了标准微调方法使用10倍数据的性能。论文还展示了模型在分布外数据集上的强泛化能力。目前,论文没有提到代码是否开源,但这些结果为未来的研究提供了重要的方向。
  • 相关研究
    近期在这个领域的一些相关研究包括: 1. 'Knowledge Distillation via Route Constrained Optimization' - 提出了一种通过路由约束优化的知识蒸馏方法。 2. 'Improving Generalization of Neural Machine Translation with Back-Translation' - 探索了通过反向翻译来提高神经机器翻译的泛化能力。 3. 'Self-Training with Noisy Student Improves ImageNet Classification' - 介绍了通过噪声学生自训练来改进ImageNet分类的方法。 这些研究都关注于通过不同的技术手段来提升模型的性能和泛化能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论