LLMs achieve adult human performance on higher-order theory of mind tasks

2024年05月29日
  • 简介
    本文研究了大型语言模型(LLMs)在理解高阶心智理论(ToM)方面的程度;即人类推理多个心理和情感状态的递归能力(例如,我认为你认为她知道)。本文在之前的研究基础上引入了手写测试套件 - 多阶心智问答,并使用它将五个LLMs的表现与新收集的成年人基准进行比较。我们发现,GPT-4和Flan-PaLM在ToM任务总体上达到了成年水平和接近成年水平的表现,而GPT-4在第六阶推理方面超过了成年人的表现。我们的结果表明,模型大小和微调之间存在相互作用,对于实现ToM能力,表现最佳的LLMs已经发展出了广义的ToM能力。考虑到高阶ToM在广泛的合作和竞争人类行为中的作用,这些发现对于面向用户的LLM应用具有重要意义。
  • 作者讲解·2
  • 图表
  • 解决问题
    本论文旨在研究大型语言模型(LLMs)是否具备高阶心理理论(ToM)的能力,以及探讨模型大小和微调对ToM能力的影响。这是否是一个新问题?
  • 关键思路
    本论文通过引入手写测试套件Multi-Order Theory of Mind Q&A,并将其用于比较五个LLMs的表现与新收集的成年人基准。研究发现,GPT-4和Flan-PaLM在ToM任务上达到了成年人水平和接近成年人水平,而GPT-4在第六阶推理上超过了成年人的表现。最佳表现的LLMs已经发展出了对ToM的广义能力。
  • 其它亮点
    本论文的实验设计包括引入新的手写测试套件Multi-Order Theory of Mind Q&A,使用了五个LLMs和新收集的成年人基准进行比较,发现GPT-4和Flan-PaLM在ToM任务上达到了成年人水平和接近成年人水平,而GPT-4在第六阶推理上超过了成年人的表现。这些发现对于用户面向的LLM应用具有重要意义。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《GPT Understands, Too》、《Measuring Massive Multitask Language Understanding》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问