Sudoku-Bench: Evaluating creative reasoning with Sudoku variants

2025年05月22日
  • 简介
    现有的大型语言模型(LLMs)推理基准常常无法捕捉到真实的创造力,往往只是奖励对先前观察到的模式的记忆。为了解决这一不足,我们提出了 Sudoku-Bench,这是一个精心策划的基准测试集合,包含具有挑战性和非传统的数独变体,专门用于评估创造性的、多步骤逻辑推理能力。数独变体构成了推理研究的一个异常有效的领域:每个谜题都会引入独特或微妙交互的约束条件,使得单纯记忆变得不可行,并要求解题者发现新的逻辑突破点(“突破口”)。尽管数独变体种类繁多,但它们保持了一种共同且紧凑的结构,从而能够进行清晰和一致的评估。Sudoku-Bench 包含一套精心挑选的谜题、一种标准化的基于文本的谜题表示方法,以及与数千个公开可用的谜题兼容的灵活工具——这使其很容易扩展为一个通用的研究环境。基线实验表明,最先进的 LLMs 在没有辅助的情况下只能解决不到 15% 的谜题,这突显了在提升长期规划和战略性推理能力方面的重要机遇。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLMs)在现有推理基准测试中过度依赖记忆化模式、缺乏真实创造力的问题。这是一个新问题,专注于评估模型在面对需要多步逻辑推理和创造性突破的任务时的表现。
  • 关键思路
    关键思路是通过引入Sudoku-Bench这一新颖的基准测试,使用具有挑战性和非传统的数独变体来评估LLMs的创造性推理能力。与传统推理基准不同,这些数独变体要求模型识别新的逻辑突破口('break-ins'),而不仅仅是回忆已知模式,这为研究长期战略推理提供了独特的机会。
  • 其它亮点
    实验设计包括一个精心挑选的数独谜题集、标准化的文本表示方法以及灵活的工具支持,便于扩展到更广泛的科研环境。研究表明,当前最先进的LLMs在无辅助情况下仅能解决不到15%的谜题,凸显了该领域的发展潜力。此外,Sudoku-Bench兼容数千个公开可用的谜题,数据集丰富且易于扩展,但未提及代码是否开源。未来值得深入研究的方向包括改进模型的多步推理能力和探索其他类似的逻辑推理任务。
  • 相关研究
    最近的相关研究包括:1) 探讨LLMs在数学推理中的表现(如MathQA等基准测试);2) 使用逻辑游戏(如华容道或魔方)评估AI的策略性推理能力;3) 针对创造性推理任务设计的新基准(如ARC: Abstract Reasoning Corpus)。相关论文标题可能包括《Evaluating Large Language Models on Multi-Step Reasoning Tasks》和《Abstract and Concrete Reasoning in Transformers》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论