- 简介本文研究了大型语言模型(LLMs)在理解高阶心智理论(ToM)方面的程度;即人类推理多个心理和情感状态的递归能力(例如,我认为你认为她知道)。本文在之前的研究基础上引入了手写测试套件 - 多阶心智问答,并使用它将五个LLMs的表现与新收集的成年人基准进行比较。我们发现,GPT-4和Flan-PaLM在ToM任务总体上达到了成年水平和接近成年水平的表现,而GPT-4在第六阶推理方面超过了成年人的表现。我们的结果表明,模型大小和微调之间存在相互作用,对于实现ToM能力,表现最佳的LLMs已经发展出了广义的ToM能力。考虑到高阶ToM在广泛的合作和竞争人类行为中的作用,这些发现对于面向用户的LLM应用具有重要意义。
-
- 图表
- 解决问题本论文旨在研究大型语言模型(LLMs)是否具备高阶心理理论(ToM)的能力,以及探讨模型大小和微调对ToM能力的影响。这是否是一个新问题?
- 关键思路本论文通过引入手写测试套件Multi-Order Theory of Mind Q&A,并将其用于比较五个LLMs的表现与新收集的成年人基准。研究发现,GPT-4和Flan-PaLM在ToM任务上达到了成年人水平和接近成年人水平,而GPT-4在第六阶推理上超过了成年人的表现。最佳表现的LLMs已经发展出了对ToM的广义能力。
- 其它亮点本论文的实验设计包括引入新的手写测试套件Multi-Order Theory of Mind Q&A,使用了五个LLMs和新收集的成年人基准进行比较,发现GPT-4和Flan-PaLM在ToM任务上达到了成年人水平和接近成年人水平,而GPT-4在第六阶推理上超过了成年人的表现。这些发现对于用户面向的LLM应用具有重要意义。
- 最近在这个领域中,还有一些相关的研究,例如:《GPT Understands, Too》、《Measuring Massive Multitask Language Understanding》等。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流