Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter?

2024年07月20日
  • 简介
    解决网格谜题需要大量的逻辑推理。因此,它是评估模型推理能力的良好领域,可以指导我们改进模型的推理能力。然而,大多数现有的研究仅评估谜题的最终预测答案,而没有深入分析LLMs的推理链(例如它们在哪里失败)或提供任何更精细的指标来评估它们。由于LLMs可能依赖于简单的启发式或人工制品来预测最终答案,因此评估生成的推理链在整体正确性度量之外是至关重要的,以准确评估LLMs的推理能力。为此,我们首先开发了GridPuzzle,这是一个由274个不同复杂度的基于网格的谜题组成的评估数据集。其次,我们提出了一个新的错误分类法,该分类法是从LLMs的推理链(包括GPT-4、Claude-3、Gemini、Mistral和Llama-2)的手动分析中导出的。然后,我们开发了一个基于LLM的框架,用于大规模主观评估(即识别错误)和一个客观度量标准PuzzleEval,以评估推理链的正确性。评估LLMs的推理链导致了几个有趣的发现。我们进一步表明,用于增强模型推理能力的现有提示方法不会提高GridPuzzle的性能。这凸显了理解细粒度错误的重要性,并提出了一个未来研究的挑战,即通过开发解决这些错误的方法来增强LLMs的解谜能力。数据和源代码可在https://github.com/Mihir3009/GridPuzzle上获得。
  • 图表
  • 解决问题
    本论文试图通过开发GridPuzzle数据集和提出新的错误分类法和评价指标,来深入评估语言模型的推理能力,以及探索提高模型推理能力的方法。
  • 关键思路
    本论文的关键思路是通过对多个语言模型在GridPuzzle数据集上的推理链进行细致分析,提出了新的错误分类法和评价指标,从而更准确地评估模型推理能力,同时发现现有的提示方法并不能有效提高模型的推理能力。
  • 其它亮点
    本论文开发了GridPuzzle数据集,提出了新的错误分类法和评价指标,对多个语言模型在推理链上进行了深入的分析和评估,发现现有的提示方法不能有效提高模型的推理能力,这为未来的研究提出了挑战。论文使用了多个语言模型和数据集进行实验,并开源了数据和代码。
  • 相关研究
    近期相关研究包括《GPT-3: Language Models are Few-Shot Learners》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论