Do Large Language Models Solve ARC Visual Analogies Like People Do?

2024年03月13日
  • 简介
    这篇文章介绍了一个名为“抽象推理语料库(ARC)”的视觉类比推理测试,旨在为人类和机器设计(Chollet,2019)。作者比较了儿童友好型的 ARC 项目中人类和大型语言模型(LLM)的表现。结果表明,无论是儿童还是成年人,在这些任务中都能超过大多数LLM。误差分析揭示了LLM和年幼儿童之间类似的“后备”解决策略,即部分类比只是简单地复制。此外,作者还发现了另外两种错误类型,一种基于似乎掌握的关键概念(例如内部-外部),另一种则基于类比输入矩阵的简单组合。总体而言,“概念”错误在人类中更为常见,“矩阵”错误在LLM中更为常见。这项研究为我们了解LLM解决视觉类比问题的能力以及通过误差分析和与人类发展的比较来理解LLM的能力提供了新的见解。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在比较人类和大型语言模型(LLM)在解决视觉类比问题上的表现,并探讨LLM的推理能力和解决视觉类比问题的策略。
  • 关键思路
    论文通过比较人类和LLM的表现,发现LLM和年幼的儿童在解决视觉类比问题时采用了类似的“fallback”解决策略。此外,研究还发现人类和LLM在解决视觉类比问题时存在不同的错误类型,即基于关键概念和基于模板输入矩阵的错误。
  • 其它亮点
    论文使用了一个新的儿童友好的ARC测试集,并发现人类和成年人在这些任务上的表现优于大多数LLM。研究还对LLM的错误进行了分析,并提出了类似于人类儿童的“fallback”解决策略。此外,论文还发现了两种不同类型的错误,即基于关键概念和基于模板输入矩阵的错误。整个研究为我们了解LLM的推理能力提供了新的视角。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如Chollet(2019)的ARC测试集和Saxton等人(2019)的Neural-Symbolic VQA等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问