The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective

2023年12月24日
  • 简介
    大型语言模型(LLMs)已经展示出模拟人类行为的惊人潜力。我们使用因果推断框架,从经验和理论上分析了进行LLM模拟实验的挑战,并探讨了潜在的解决方案。在需求估计的背景下,我们展示了提示中包含的处理变量(例如,焦点产品的价格)的变化可能会导致未指定的混杂因素(例如,竞争对手的价格、历史价格、室外温度)的变化,引入内生性并产生不可信的需求曲线。我们提出了一个理论框架,表明这种内生性问题适用于其他情境,并且仅仅改进训练数据无法完全解决它。与真实实验不同,研究人员在真实实验中可以将预先存在的单位分配到不同的条件中,而LLMs则基于整个提示(包括处理的描述)来模拟单位。因此,由于训练数据中的关联性,LLM模拟的个体和环境特征可能会受到处理分配的影响。我们探讨了两种潜在的解决方案。第一种是指定影响处理和结果的所有上下文变量,我们证明这对于通用型LLM来说是具有挑战性的。第二种是显式指定提示中处理变化的来源(例如,告知LLM商店正在进行实验)。虽然这种方法只允许估计依赖于特定实验设计的条件平均处理效应,但它为探索性分析提供了有价值的方向性结果。
  • 图表
  • 解决问题
    本文试图探讨使用大型语言模型(LLMs)进行模拟实验时面临的挑战,并提出潜在的解决方案。特别是在需求估计方面,文中发现模拟实验中的处理变量可能会引起未指定的混淆因素,导致内生性问题和需求曲线的不合理平坦化。
  • 关键思路
    本文提出了一种理论框架,指出LLMs模拟实验中的内生性问题是普遍存在的,并不仅仅是数据训练不足造成的。与真实实验不同,LLMs根据整个提示来模拟个体,而提示包括处理描述。因此,由于训练数据中存在关联,LLM模拟的个体和环境特征可能会受到处理分配的影响。
  • 其它亮点
    文中提出了两种解决方案,第一种是指定影响处理和结果的所有上下文变量,但这对于通用型LLMs来说是具有挑战性的。第二种方法是在提示中明确指定处理变量的来源,虽然这种方法只能估计特定实验设计下的条件平均处理效应,但它为探索性分析提供了有价值的方向性结果。此外,文中还介绍了实验设计和使用的数据集。
  • 相关研究
    最近的相关研究主要集中在大型语言模型的应用和改进上,如GPT-3等。此外,也有一些研究探讨了模拟实验的其他问题,如内生性问题和因果推断等。相关论文包括《Causal Inference in Statistics: An Overview》和《Causal Inference: What If》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问