- 简介了解干预效果对人类决策至关重要,但目前的因果效应估计方法都依赖于手动数据收集和结构化,无论因果假设如何。这增加了研究的成本和完成时间。我们展示了如何使用大型语言模型(LLM)挖掘大量多样化的观察性文本数据,在适当的因果假设下生成廉价的因果效应估计。我们介绍了NATURAL,这是一种新颖的因果效应估计器家族,使用LLM构建,可以处理非结构化文本数据集。我们的估计器使用LLM条件分布(在给定文本数据的感兴趣变量上)来协助计算经典的因果效应估计器。我们克服了许多技术挑战,以实现这个想法,例如自动化数据整理和使用LLM来填补缺失信息。我们准备了六个(两个合成和四个真实)观察数据集,配对相应的随机试验形式的基本事实,用于系统评估我们流程的每一步。NATURAL估计器表现出卓越的性能,产生的因果效应估计值与其基本事实对应物之间的差距不超过3个百分点,包括在现实世界中的第3/4阶段临床试验。我们的结果表明,非结构化文本数据是因果效应信息的丰富来源,NATURAL是利用这一资源的自动化流程的第一步。
-
- 图表
- 解决问题论文旨在使用大型语言模型(LLMs)在不同的因果假设下,从大量的非结构化文本数据中估计因果效应,以减少数据收集和整理的成本和时间。
- 关键思路NATURAL是一种基于LLMs的因果效应估计器,它使用LLM条件分布来协助计算经典的因果效应估计器。为了实现这一想法,作者克服了许多技术挑战,例如自动化数据管理和使用LLMs来填补缺失信息。
- 其它亮点作者使用六个数据集(包括两个合成数据集和四个真实数据集)来评估他们的方法,并展示了NATURAL估计器的出色性能,其因果效应估计值与其基准实验相差不超过3个百分点。作者的方法在实际的III/IV期临床试验中也表现出了良好的性能。
- 相关研究包括利用自然语言处理技术进行因果推断的研究,如DoWhy和Text2CAUSE。此外,还有一些研究探索如何使用LLMs来处理非结构化文本数据,例如GPT-3和BERT。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流