Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis

简介

人类化的大型语言模型（LLMs）的响应引发了社会科学家对LLMs是否可以用于模拟实验、民意调查和调查中的人类参与者的研究。在这一研究领域中，最为关注的是通过促使LLMs回答标准化问卷来绘制LLMs的心理特征。由于从LLMs对问卷的文本响应中绘制潜在的特征并不容易，因此这项研究的发现相互矛盾并不令人意外。为了解决这个问题，我们使用了心理测量学，即心理测量的科学。在本研究中，我们促使OpenAI的旗舰模型GPT-3.5和GPT-4扮演不同的角色，并回答一系列标准化的人格构建测量问题。我们使用了两种不同类型的角色描述：一种是通用的（四到五个随机人物描述），另一种是具体的（大规模人类数据集中实际人类的大多数人口统计信息）。我们发现，使用通用角色描述的GPT-4的响应具有很好的心理测量特性，类似于人类的标准，但两种LLMs在使用特定人口统计信息时的数据则显示出较差的心理测量特性。我们得出结论，目前当LLMs被要求模拟硅人时，它们的响应是潜在的潜在特征的差信号。因此，我们的工作对LLMs在多项选择问答任务中模拟个体级人类行为的能力提出了质疑。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图探究使用大型语言模型（LLMs）模拟人类参与者在实验、民意调查和调查中的可行性，以及对LLMs进行心理测量的有效性。
关键思路

使用心理测量学来评估LLMs的心理特征，发现GPT-4在使用一般人物描述时表现出了与人类相似的心理特征，但在使用具体人口统计数据时表现较差，因此怀疑LLMs模拟个体人类行为的能力。
其它亮点

论文使用了OpenAI的两个旗舰模型，GPT-3.5和GPT-4，并使用了两种不同类型的人物描述：一般描述和具体人口统计数据。结果显示GPT-4在一般人物描述下表现良好，但在具体人口统计数据下表现较差。研究结果对LLMs模拟个体人类行为的能力提出了质疑。
相关研究

最近的相关研究包括使用LLMs进行心理测量的研究，以及LLMs在多项选择问答任务中的表现研究。

Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis

提问交流

提问交流