- 简介复杂的推理能力是当前大型语言模型(LLMs)最重要的特征之一,也被用于复杂决策任务中的关键角色。因此,研究大型语言模型的推理能力至关重要:已经建立了许多基准来评估LLMs的推理能力。然而,当前的基准不足以提供对LLMs完整推理能力的严格评估。它们也容易出现过拟合的风险,因为这些基准是公开可访问和静态的,可能会让模型根据特定基准指标调整其响应,从而提高其性能。为了解决这些限制,我们的研究引入了一个名为NPHardEval的新基准。该基准旨在评估LLMs在广泛的900个算法问题上的推理能力,延伸到NP-hard复杂度类。这些问题被精心选择,以代表NP-hard复杂度类以下的广泛复杂度类,提供LLMs推理能力的严格度量。通过这项研究,我们揭示了LLMs推理能力的当前状态,通过比较复杂类别中LLMs的性能,提供了客观而严格的视角。此外,该基准采用动态更新机制,其中数据点每月刷新一次。这样的定期更新在缓解LLMs过度拟合基准的风险方面发挥了关键作用,促进了对其推理能力更准确和可靠的评估。NPHardEval的基准数据集和代码可在https://github.com/casmlab/NPHardEval 上获得。
-
- 图表
- 解决问题本论文旨在解决评估大型语言模型(LLMs)推理能力的问题,提出了一个新的基准测试NPHardEval,并探讨了当前LLMs的推理能力状态。
- 关键思路NPHardEval基准测试旨在评估LLMs在900个算法问题上的推理能力,包括NP-hard复杂度类,通过动态更新机制,减少过拟合风险。
- 其它亮点NPHardEval基准测试数据集和代码已经开源,实验结果表明当前LLMs的推理能力还有提升空间,需要进一步研究提高其推理能力。
- 最近的相关研究包括但不限于《SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems》和《GPT-3: Language Models are Few-Shot Learners》。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流