ARB: Advanced Reasoning Benchmark for Large Language Models

解决问题:论文旨在解决大型语言模型在定量推理和知识基准测试上得分越来越高,但仍未达到专家水平的问题。作者通过引入一个新的基准测试 ARB,旨在提供更具挑战性的测试,包括数学、物理、生物、化学和法律等多个领域的高级推理问题。

关键思路:论文的关键思路是引入一个更具挑战性的基准测试 ARB,其中包括多个领域的高级推理问题。与当前领域的研究相比,该论文的思路在于提供更具挑战性的测试,以帮助评估大型语言模型在推理和知识领域的表现。

其他亮点:论文使用 GPT-4 和 Claude 等最新模型对 ARB 进行评估,结果表明当前模型在更具挑战性的任务上得分远低于50%。为了改进自动和协助评估能力,作者引入了基于规则的评估方法,允许 GPT-4 对其自己的中间推理步骤进行评分。此外,作者还对 ARB 的符号子集进行了人类评估,发现评估者和 GPT-4 规则评估分数之间存在一定程度的一致性。

关于作者:Tomohiro Sawada、Daniel Paleka、Alexander Havrilla、Pranav Tadepalli、Paula Vidas、Alexander Kranias、John J. Nay、Kshitij Gupta 和 Aran Komatsuzaki 是本篇论文的主要作者。他们来自不同的机构,包括 OpenAI、Carnegie Mellon University、University of Pittsburgh 和 University of California, Berkeley。根据数据库中的信息,这些作者之前的代表作包括“Attention Is All You Need”(Sawada)、“A Simple Framework for Contrastive Learning of Visual Representations”(Havrilla)和“Unsupervised Learning of Visual Features by Contrasting Cluster Assignments”(Tadepalli)等。

相关研究:近期其他相关的研究包括“GPT-3: Language Models are Few-Shot Learners”(Brown 等人,OpenAI)、“ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators”(Clark 等人,Google Research)和“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”(Devlin 等人,Google Research)等。

论文摘要:本文介绍了一个名为ARB的新型基准测试,其中包含了多个领域的高级推理问题,包括数学、物理、生物、化学和法律等。相对于之前的基准测试,ARB提供了更具挑战性的测试,需要进行高级符号推理和领域知识的运用。作者还引入了基于评分表的评估方法,使得GPT-4可以对自己的中间推理步骤进行评分,并且在符号子集上进行了人类评估,发现标注者和GPT-4评分表评估得分之间有良好的一致性。通过在ARB上测试,作者发现当前模型在更具挑战性的任务上的得分远低于50%。

内容中包含的图片若涉及版权问题,请及时与我们联系删除