LLMs achieve adult human performance on higher-order theory of mind tasks

向作者提问

NEW

简介

本文研究了大型语言模型（LLMs）在理解高阶心智理论（ToM）方面的程度；即人类推理多个心理和情感状态的递归能力（例如，我认为你认为她知道）。本文在之前的研究基础上引入了手写测试套件 - 多阶心智问答，并使用它将五个LLMs的表现与新收集的成年人基准进行比较。我们发现，GPT-4和Flan-PaLM在ToM任务总体上达到了成年水平和接近成年水平的表现，而GPT-4在第六阶推理方面超过了成年人的表现。我们的结果表明，模型大小和微调之间存在相互作用，对于实现ToM能力，表现最佳的LLMs已经发展出了广义的ToM能力。考虑到高阶ToM在广泛的合作和竞争人类行为中的作用，这些发现对于面向用户的LLM应用具有重要意义。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

本论文旨在研究大型语言模型（LLMs）是否具备高阶心理理论（ToM）的能力，以及探讨模型大小和微调对ToM能力的影响。这是否是一个新问题？
关键思路

本论文通过引入手写测试套件Multi-Order Theory of Mind Q&A，并将其用于比较五个LLMs的表现与新收集的成年人基准。研究发现，GPT-4和Flan-PaLM在ToM任务上达到了成年人水平和接近成年人水平，而GPT-4在第六阶推理上超过了成年人的表现。最佳表现的LLMs已经发展出了对ToM的广义能力。
其它亮点

本论文的实验设计包括引入新的手写测试套件Multi-Order Theory of Mind Q&A，使用了五个LLMs和新收集的成年人基准进行比较，发现GPT-4和Flan-PaLM在ToM任务上达到了成年人水平和接近成年人水平，而GPT-4在第六阶推理上超过了成年人的表现。这些发现对于用户面向的LLM应用具有重要意义。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《GPT Understands, Too》、《Measuring Massive Multitask Language Understanding》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问