NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes

简介

复杂的推理能力是当前大型语言模型（LLMs）最重要的特征之一，也被用于复杂决策任务中的关键角色。因此，研究大型语言模型的推理能力至关重要：已经建立了许多基准来评估LLMs的推理能力。然而，当前的基准不足以提供对LLMs完整推理能力的严格评估。它们也容易出现过拟合的风险，因为这些基准是公开可访问和静态的，可能会让模型根据特定基准指标调整其响应，从而提高其性能。为了解决这些限制，我们的研究引入了一个名为NPHardEval的新基准。该基准旨在评估LLMs在广泛的900个算法问题上的推理能力，延伸到NP-hard复杂度类。这些问题被精心选择，以代表NP-hard复杂度类以下的广泛复杂度类，提供LLMs推理能力的严格度量。通过这项研究，我们揭示了LLMs推理能力的当前状态，通过比较复杂类别中LLMs的性能，提供了客观而严格的视角。此外，该基准采用动态更新机制，其中数据点每月刷新一次。这样的定期更新在缓解LLMs过度拟合基准的风险方面发挥了关键作用，促进了对其推理能力更准确和可靠的评估。NPHardEval的基准数据集和代码可在https://github.com/casmlab/NPHardEval 上获得。
作者讲解·2
- 讲解视频(1)
- 相关报道(1)
图表
解决问题

本论文旨在解决评估大型语言模型（LLMs）推理能力的问题，提出了一个新的基准测试NPHardEval，并探讨了当前LLMs的推理能力状态。
关键思路

NPHardEval基准测试旨在评估LLMs在900个算法问题上的推理能力，包括NP-hard复杂度类，通过动态更新机制，减少过拟合风险。
其它亮点

NPHardEval基准测试数据集和代码已经开源，实验结果表明当前LLMs的推理能力还有提升空间，需要进一步研究提高其推理能力。
相关研究

最近的相关研究包括但不限于《SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems》和《GPT-3: Language Models are Few-Shot Learners》。

NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes

提问交流

提问交流