Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

简介

大型语言模型（LLMs）通常被描述为基础模型的实例，即在少量或零样本情况下在各种任务和条件之间强烈转移的模型，同时展现了预训练规模增加时功能改进的缩放定律。这些在不同功能和任务方面表现出色的声称依赖于在各种标准基准测试集上得到的高分数。我们在这里展示了最大可用规模上训练的最先进模型在简单、简短、常识性问题上的功能和推理能力的显著崩溃，这些问题用简明的自然语言表述，人类很容易解决。这种崩溃是惊人的，因为模型还表现出对其错误解决方案的强烈过度自信，同时提供常常类似于编造的“推理”解释来证明和支持其明显失败的响应的有效性，使它们听起来是合理的。各种尝试获取正确解决方案的标准干预措施，如各种类型的增强提示，或者通过多步重新评估督促模型重新考虑错误解决方案，都失败了。我们将这些初步观察结果呈现给科学和技术界，以刺激对当前一代LLMs的声称能力进行紧急重新评估。这种重新评估还需要共同行动，以创建标准基准测试集，从而允许正确检测这种基本推理缺陷，这些缺陷显然在当前最先进的评估程序和基准测试中仍然未被发现。可以在https://github.com/LAION-AI/AIW找到重现论文实验和原始实验数据的代码。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

对当前大型语言模型在基础推理问题上的表现进行评估，发现其存在严重的功能和推理能力缺陷，需要重新评估其能力和建立更适合的基准测试数据集。
关键思路

使用一个简单的基础常识问题来评估大型语言模型的推理能力，发现当前最先进的模型在这方面表现不佳。需要重新评估模型的能力和建立更适合的基准测试数据集。
其它亮点

论文使用一个简单的常识问题来评估大型语言模型的推理能力，并发现当前最先进的模型在这方面表现不佳，存在严重的功能和推理能力缺陷。实验使用了多个常用的大型语言模型，并进行了多种尝试来纠正模型的错误推理结果，但都失败了。论文呼吁建立更适合的基准测试数据集，以便更好地评估大型语言模型的能力。代码和数据集已经开源。
相关研究

最近的相关研究主要集中在大型语言模型的训练和应用方面，例如BERT、GPT等。

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

提问交流

提问交流