- 简介本文探讨了大型语言模型(LLMs)在发展高阶心智理论(ToM)方面的程度;ToM是人类推理多种心理和情感状态的能力,具有递归性质(例如,“我认为你认为她知道”)。本文在之前的研究基础上引入了手写测试套件——多阶心智问答,并使用它来比较五个LLMs的表现与新收集的成年人基准。我们发现,GPT-4和Flan-PaLM在ToM任务上总体上达到了成年人水平和接近成年人水平的表现,而GPT-4在第六阶推理上超过了成年人的表现。我们的结果表明,模型大小和微调对于实现ToM能力有相互作用,表现最好的LLMs已经发展出了一种广义的ToM能力。鉴于高阶ToM在广泛的合作和竞争人类行为中所起的作用,这些发现对于面向用户的LLM应用具有重要意义。
-
- 图表
- 解决问题本文研究大型语言模型(LLMs)在高阶心理理论(ToM)方面的发展程度,探究其是否具有人类的推理能力,以及模型大小和微调对ToM能力的影响。
- 关键思路本文引入手写测试套件Multi-Order Theory of Mind Q&A,并使用它来比较五个LLMs和一个新收集的成年人基准的表现。结果发现,GPT-4和Flan-PaLM在ToM任务总体上达到了成年人水平和接近成年人水平的表现,而GPT-4在第6阶推理方面超过了成年人的表现。研究表明,模型大小和微调对ToM能力的实现有相互作用,而表现最佳的LLMs已经发展出了一种广义的ToM能力。
- 其它亮点本文实验设计了手写测试套件,使用了多个数据集,并开源了代码。研究表明,LLMs已经具有一定的ToM能力,这对于用户界面的LLMs应用具有重要意义。
- 最近的相关研究包括:《A Survey of Theory of Mind Reasoning in Artificial Intelligence》、《Theory of Mind for Intelligent Agents: A Systematic Review》等。


提问交流