Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

Marianna Nezhurina ,
Lucia Cipolina-Kun ,
Mehdi Cherti ,
Jenia Jitsev
2024年06月04日
  • 简介
    大型语言模型(LLMs)通常被描述为基础模型的实例,即在少量或零次展示的情况下在各种任务和条件下具有强大的迁移能力,同时表现出预测功能提高的缩放规律。这些在不同功能和任务上表现出色的说法依赖于在各种标准化基准测试集上进行的测量,这些测试集显示出这些模型的高分数。我们在这里展示了最大可用规模上训练的最先进模型在简单、短小、常识性的自然语言问题上的功能和推理能力的显著崩溃,这些问题易于人类解决。这种崩溃是惊人的,因为模型还表现出对其错误解决方案的强烈过度自信,同时提供类似于混淆的“推理”解释来证明和支持其显然失败的响应的有效性,使其听起来很有道理。各种尝试获取正确解决方案的标准干预措施,例如各种类型的增强提示或敦促模型通过多步重新评估来重新考虑错误的解决方案,都失败了。我们将这些初步观察结果提交给科学和技术界,以刺激对当前一代LLMs声称的能力进行紧急重新评估。这种重新评估还需要共同行动,以创建标准化基准测试集,以便正确检测这些基本推理缺陷,这些缺陷显然在当前最先进的评估程序和基准测试集中仍然未被发现。可以在https://github.com/LAION-AI/AIW找到本文实验的代码和原始实验数据。
  • 图表
  • 解决问题
    论文试图验证当前最先进的大型语言模型在常识问题上的推理能力是否存在严重缺陷,以及当前的评估标准是否能够发现这种缺陷。
  • 关键思路
    通过一个简单的常识问题,揭示了当前最先进的大型语言模型在推理能力上的严重缺陷,并提出了需要建立新的标准化评估基准的观点。
  • 其它亮点
    论文展示了当前最先进的大型语言模型在推理能力上的严重缺陷,并提出了需要建立新的标准化评估基准的观点。实验使用了一个简单的常识问题,证明了当前的评估标准无法发现这种缺陷。作者开源了代码和实验数据。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《GPT-2:一种生成性语言模型的极限》、《BERT:预训练的深度双向变换器表示》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论