Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis

2024年05月12日
  • 简介
    人类化的大型语言模型(LLMs)的响应引发了社会科学家对LLMs是否可以用于模拟实验、民意调查和调查中的人类参与者的研究。在这一研究领域中,最为关注的是通过促使LLMs回答标准化问卷来绘制LLMs的心理特征。由于从LLMs对问卷的文本响应中绘制潜在的特征并不容易,因此这项研究的发现相互矛盾并不令人意外。为了解决这个问题,我们使用了心理测量学,即心理测量的科学。在本研究中,我们促使OpenAI的旗舰模型GPT-3.5和GPT-4扮演不同的角色,并回答一系列标准化的人格构建测量问题。我们使用了两种不同类型的角色描述:一种是通用的(四到五个随机人物描述),另一种是具体的(大规模人类数据集中实际人类的大多数人口统计信息)。我们发现,使用通用角色描述的GPT-4的响应具有很好的心理测量特性,类似于人类的标准,但两种LLMs在使用特定人口统计信息时的数据则显示出较差的心理测量特性。我们得出结论,目前当LLMs被要求模拟硅人时,它们的响应是潜在的潜在特征的差信号。因此,我们的工作对LLMs在多项选择问答任务中模拟个体级人类行为的能力提出了质疑。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图探究使用大型语言模型(LLMs)模拟人类参与者在实验、民意调查和调查中的可行性,以及对LLMs进行心理测量的有效性。
  • 关键思路
    使用心理测量学来评估LLMs的心理特征,发现GPT-4在使用一般人物描述时表现出了与人类相似的心理特征,但在使用具体人口统计数据时表现较差,因此怀疑LLMs模拟个体人类行为的能力。
  • 其它亮点
    论文使用了OpenAI的两个旗舰模型,GPT-3.5和GPT-4,并使用了两种不同类型的人物描述:一般描述和具体人口统计数据。结果显示GPT-4在一般人物描述下表现良好,但在具体人口统计数据下表现较差。研究结果对LLMs模拟个体人类行为的能力提出了质疑。
  • 相关研究
    最近的相关研究包括使用LLMs进行心理测量的研究,以及LLMs在多项选择问答任务中的表现研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问