近日,图灵奖得主、因果科学之父 Judea Pearl 接受了访谈,交流了因果推断领域的一些有趣的问题,包括从因果关系到反事实、因果图、反事实和潜在结果,以及非因果但有趣的问题。本次访谈由宾夕法尼亚大学出版社出版,发布在Observational Studies杂志上。以下为部分访谈内容的整理。

下载访谈原文:https://muse.jhu.edu/article/867087/pdf

一般视角

采访者:从数据推断因果影响涉及许多步骤。你认为你的工作在这个整体过程中适合哪里?

Pearl:我试图理解在什么条件下这种推论在理论上是可能的,当然允许部分科学知识来指导推论。我的重点是一类被称为“非参数”的模型,它们具有两个独特的特征:(1)它们忠实地捕捉了经验研究人员可用的那种科学知识;(2)它们不需要对任何类型的数值假设作出承诺。利用这些模型,我把重点放在识别问题上,而不是估计问题上。这就要求将期望的因果量转换成可以从数据中估计的等价概率表达式(称为Estimation and)。一旦得到一个估计,实际的估计步骤就不再是因果的,可以通过标准的统计方法来完成。这确实是机器学习的过人之处,不像识别步骤,机器学习和标准统计方法几乎束手无策。正是出于这个原因,我把注意力集中在识别上--这是因果思维的新奇之处,也是必须发展新的微积分的地方。

历史视角

采访者:你对因果推论运动的历史有什么看法,这场运动是如何发展到今天的?

Pearl:我的观点来自一个计算机科学家的镜头。我把这场运动看作是一场努力发展一种数学语言来捕捉因果关系的斗争,这样我们就可以忠实而透明地表达我们的假设,导出它们的逻辑含义,并将它们与数据结合起来。它真的是两种互不相交的语言之间的婚礼,一种是因果语言,另一种是数据语言,即统计学(Pearl,2019b)。

这场婚礼发生在科学史上相当晚的时候,因为科学对因果关系不太友好。它围绕着代数的对称等号=,从而剥夺了我们捕捉因果关系不对称性的语言。这样一种语言是在过去三十年中发展起来的,它使用图形,现在它使我们能够以算法的精度回答因果和反事实的问题。

图形是新的数学对象,对统计科学的大多数研究者来说是陌生的,当然也被该领域的顶级领导人拒绝为 "非科学的广告"(Rubin,2009)。我试图将因果图引入统计学(Pearl, 1995; Pearl et al., 2000),这让我了解到,惯性力量在科学中的作用至少和在政治中的作用一样强。这就是在社会科学的某些圈子里仍然实行非因果调解分析的原因(Hayes,2017),"可忽略性 "假设仍然主导着大片的研究岛屿(Imbens和Rubin,2015),而图表仍然是计量经济学文献中的禁忌(Angrist和Pischke,2014)。虽然今天大多数研究人员都承认图形作为阐述科学信息的透明语言的优点,但很少有人欣赏图形作为 "推理引擎 "的计算作用,即把构建图形时使用的信息的逻辑后果展示出来。一些经济学家甚至不遗余力地压制这种计算的奇迹(Heckman和Pinto,2015;Pearl,2013)。

虽然统计学始于19世纪,但塞沃尔·赖特(1920年)是第一个从数学上放下X导致Y而不是相反的假设的人(赖特,1921)。利用“路径图”,他能够用数学方法阐明因果假设,交流它们,并在科学基础上为它们辩护。此外,给定图的结构及其路径系数,他可以计算测量变量之间的相关性。随后,他倒着工作,从相关性中找到了系数。

回想起来,赖特的练习很了不起(珀尔和麦肯齐,2018年)。每个人都指责他做了不可能的事情,从相关性中提取因果关系。但他作出了令人钦佩的回应,声称他的因果结论不仅仅是从相关性中产生的,而是从相关性和因果假设的结合中产生的。这和今天支配因果推理的哲学是一样的。然而,即使在今天,许多研究人员仍然很难理解路径图如何能够完成仅靠相关性无法完成的事情(Sobel,2009);他们还没有被教会如何阅读图表中如此生动地显示的因果假设。

1923年,与赖特无关,泽西·尼曼在对照实验的背景下引入了另一种因果效应的符号(Neyman,1923)。他的符号引用了反事实(更准确地说,潜在的结果):Y1是你如果应用治疗1会看到的,Y0是你如果应用治疗0会看到的。概率规则现在可以适用于那些反事实实体,就好像它们是普通变量一样。

随机实验的发明者费舍尔没有使用尼曼的记谱法。他用直觉来宣称,而不是证明,随机化给了你想要的东西(Fisher,1926)。请注意,农民对随机化毫不关心。他们想知道如果他们把肥料1或0施在整个田里,而不是随机选择的地段,产量会是多少。但是,尽管费希尔没有表示农民想要什么的符号,但他还是说服了整个统计界,如果你随机化,你会得到(平均)农民想要的东西(即平均治疗效果(ATE))。他的论点如此令人信服,以至于统计学家在没有数学证明的情况下就接受了它。

在经济学中,因果符号的使用始于1928年Philip Wright(Sewall之父),他使用结构方程发展了工具变量的方法(Wright,1928)。Haavelmo(1943)后来研究了经济建模的实践,并注意到这些模型援引了具有特殊性质的方程。他是第一个问“这个等式说了什么?”在他之前,人们直觉地理解等号不是一个普通的等式,这个等式对经济如何运行说了一些深刻的、额外的统计意义,但没有人敢把它命名为“因果效应”。由于缺乏反实际或介入性的符号,他们无法正式阐明经济等式传达的因果假设。Haavelmo是第一个断言,当一个经济学家写下一个经济方程式时,他/她心中有一个实验(Pearl,2015b)。在右边,你有控制变量,在左边,你有这些变量的函数。因此,他给这个方程赋予了因果意义,并着手设计一个数学程序,将几个方程结合起来,推导出因果效应。他基本上说,人们应该修改方程的右边,直到它达到指定的干预水平,然后解决修改后的方程集,以获得期望的因果效应(Pearl,2015b)。

1960年,斯特罗兹和沃尔德从模型中 "抹去 "方程,模拟价格固定(斯特罗兹和沃尔德,1960)。这是代数法向图形法过渡的第二步。但它不得不等待1991年Spirtes、Glymour和Scheines通过从图中删除箭头来赋予它图形化的表现(Spirtes等人,2000)。随后,后门标准(Pearl, 1993)解决了 "协变量选择 "问题,并产生了一个保证无偏差的因果效应估计。

有趣的是,赖特和哈维尔莫的这些著作在给社会科学和经济学带来革命之前,已经影响了哲学和计算机科学。20世纪60年代,Blalock和Duncan发现了Sewall Wright的论文,并将因果推论引入社会科学(Blalock,1962;Jr,1964;Duncan,1966)。像Wright一样,他们使用路径图来得到部分相关性,然后使用反演来得到路径系数。这之后场爆炸了。每一个社会学家或行为学家都成了偏相关、路径系数或路径图的专家。不幸的是,他们没有D-分离。这意味着他们不能从图中读到消失的部分相关性,也不能看到这些部分所暗示的所有美好的东西,比如识别、模型等价等等。最终,在1975年,J.oreskog发明了LISREL(线性结构关系),这是一个软件包,可以将模型与数据直接匹配,并为您提供一定程度的适应度(J.oreskog和S.orbom,1986)。从业者忘记了方程式的因果意义,以为他们在做统计。有些人甚至反对“思考或使用因果等术语”(Muten,1987)。这是一些社会科学家仍然运作的方式(Bollen and Pearl,2013),尽管通过Morgan and Winship的书(2007;2015)因果推论已经有了很大的复兴。

经济学的故事有些不同。1950年前后,Jacob Marscak和Cowles Commission采用了结构模型的Haavelmo解释,并提出了使结构模型对决策有用的关键概念和理论,包括识别理论、结构不变性理论和参数估计理论。然而,他们的模型与参数表示紧密结合,主要是线性的,并围绕着识别参数和修改参数。他们缺乏明确的符号工具来解释所问的政策问题、方程背后的因果假设以及模型的可检验含义。

大量的统计学家涌入计量经济学,加上结构方程与回归模型的欺骗性相似性,导致许多计量经济学家怀疑其模型的因果内容…在这种表面相似性的引诱下,一些人得出结论:“我们必须首先强调,由于扰动项是不可观察的,通常的零协方差‘假设’通常简化为仅仅的定义,没有必要的因果关系和外源性含义。”(Richard,1980,p.3)

另一些人开始相信,必须援引一些额外的假设(例如,“外源性(Engle et al.,1983))来限定政策分析的模型。这些方程本身被认为过于简单或”脆弱“,无法传达介入信息。

到1980-90年代,大多数经济学家开始相信“一个计量经济学模型指定了被认为在经济数量之间存在的统计关系”(wik),计量经济学教科书变得充满了结构方程和回归方程之间的无情混淆(Chen and Pearl,2013)。

2000年,詹姆斯·赫克曼试图纠正这种忽视,并强调经济思维和经济模型的反事实性质。然而,由于缺乏推理工具,并坚持寻找“本土”替代方案,他无法缩小与邻近学科发展的差距。我在纪念哈维尔莫百年诞辰的论文(Pearl,2015b)中使用了28个简单的例子,用生动的颜色说明了这种差距。

从因果关系到反事实

采访者:Wright和Haavelmo的这些思想是如何发展到Do微积分,然后发展到我们现在对反事实的理解的?

Pearl:在20世纪70年代,Don Rubin注意到Neyman的符号不仅可以用于实验研究的因果推断,也可以用于观察性研究(Rubin, 1974)。他是最早(1980年)以方程Y=XY1+(1-X)Y0的形式提出一致性规则的人之一,他认为这是一个 "假设"(Rubin, 1980)。这个重要的方程将假设的反事实Y1和Y0与一个观察到的数量,即Y联系起来。David Lewis和Robert Stalnaker早在8年前就提出了反事实的理论,使用的是可能世界语义学(Stalnaker, 1980),Gibbard和Harper证明了(1976)一致性规则实际上是Lewis语义学的一个定理(Gibbard和Harper, 1976)。

20世纪80年代,Greenland and Robins采用了反事实符号,并用它将实验单位分为4种反应类型:注定的、导致的、预防的和免疫的(Greenland and Robins,1986)。他们用这些反应类型来定义混杂,这是“混杂”的第一个正式定义。以前用统计词汇来定义混杂的尝试当然失败了,因为混杂是一个因果概念。不幸的是,评估每个响应类型中的人的比例很难,因为个人没有按类型标记。

1986年,罗宾斯使用Neyman符号推导出他的g公式,假设反事实之间是独立的。(即无知)。它回答了诸如“如果你有一个时间顺序变量的集合,并且你假设在时间的每个阶段都不知道,那么一系列干预措施的效果会是什么?”他表明,如果你假设每个变量在每个阶段都是随机的,给定pbast,你可以在给定干预前概率的情况下评估干预措施的效果(Robins,1986)。

1991年,Spirtes、Glymour和Scheines利用Strotz和Wold在图上的“消灭”运算导出了同样的公式(Spirtes et al.,2000)。这样做的好处是把假设建立在观察到的变量之间有意义的关系上,而不是反事实之间不透明的条件独立性。这个公式仍然局限于没有未观察到的混杂物的模型,也称为“马尔可夫模型”。两年后,我提出了后门标准,它促进了“半马尔可夫模型”中因果效应的识别,即装载了未观察到的混杂物的无反馈模型(Pearl,1993)。后门准则利用了十年前为贝叶斯网络发展起来的D-分离条件(Judea,1986)。

贝叶斯网络被开发用于使用条件独立性的图形模型进行概率预测和逆转(诊断)。我们想过因果关系,但我们不敢明确地放下因果假设。相反,我们写下了疾病、症状和治疗之间的概率关系。我们相信我们在做统计,而不是因果关系(Pearl,1988)。然而,奇怪的是,这些模型总是以父母为原因,孩子为结果;它们实际上是因果图。因此,为贝叶斯网络所获得的所有知识都被证明同样适用于因果图,这极大地帮助了do演算和反事实分析的发展(Balke and Pearl,1994a,b;Pearl,1994)。

我曾经称D-分离为“上帝的礼物”,因为它是我们在模型中的因果假设和我们可以期望在数据中观察到的东西之间唯一的桥梁。采用D-分离的科学界(如流行病学)蓬勃发展,没有采用D-分离的科学界则留了下来。我相信21世纪科学的历史学家会注意到这种联系。

我被后门标准的力量激动不已,认为因果关系的语言应该有一个自己的微积分,也就是说,一套程序来回答来自任何模型的任何因果问题。给定一个任意的图形,我寻求一个机械程序来得到“如果我干预X,Y会发生什么?”这个问题的答案,做演算在正确的时间出现了,因为它向我们展示了除了后门调整之外还可以做什么(Pearl,1994)。前门标准是它的首批成果之一,《为什么》一书描述了它的发现引起的兴奋(珀尔和麦肯齐,2018)。另一个成果是后门标准的顺序版本,这是杰米·罗宾斯和我在1995年推导出来的。它确定了时变处理的效果(Pearl and Robins,1995),并揭开了Robins的G公式有效的条件。

1995年,Phil Dawid有勇气推翻所有负面评论,并在Biometrika上发表了我的论文(Pearl,1995)。他认为这个领域需要听到这种处理因果效应的新方法。这样的编辑勇气如今很少见。

大约从同一时间开始,鲁宾的潜在结果框架在研究界的几个部分开始流行,主要是在经济学家和政治学家中。这些研究人员谈论 "条件可忽略性",以证明他们的方法是正确的,尽管他们不能说这是真的。条件无知性给了他们一个正式的符号来说明使用他们最喜欢的估计程序的许可,尽管他们无法为许可背后的假设进行辩护。这种依靠先验许可的做法一直持续到今天。很难相信,像图表这样简单的东西可以取代 "条件可忽略性 "这个不透明的概念,而人们对此感到痛苦和难以理解。后门标准使之成为可能,这在流行病学中立即得到认可(Greenland等人,1999),尽管不是在所有领域(Heckman和Pinto,2015;Rubin,2009)。

到1996年,我开始写我的书《因果关系》。此后,许多问题得到了解决,现在证明了do演算是完整的(Shpitser and Pearl,2006)。

这意味着,如果do-calculus告诉你它不能识别某种因果效应,那么没有其他方法可以非参数识别它,除非你加强或细化假设。具体地说,do演算是一组用于操纵因果表达式的规则,其目的是从这些表达式中删除do运算符,并将它们简化为统计陈述句。例如,如果某个模式在图中成立,您可以用一个动作来交换观察。另一种模式可能允许您从表达式中移除一个动作或一个变量。一个类比就是微积分中的符号积分。有了丰富的变换集,如部分积分和代换积分,可以将被积函数简化为可积函数的和。

实际上,即使您已经用许多集成技巧武装了自己,这仍然是一个难题,因为您不知道在任何给定的时间点使用什么技巧。你应该使用按部分集成还是按替代集成的把戏?如果替换,你应该用什么函数替换X,余弦,正切,对数或指数?所以,你看,有一个微积分并不意味着你有一个有效的程序来得到答案。我们需要的不止这些。微积分是用来验证答案的,而不是用来找到答案的。如果你给我一个确定的因果效应的猜测,我可以立即用做微积分的三条规则证明给你看。但是寻找规则应用的顺序是一个难题。幸运的是,我们现在有了一个算法,它只是继续前进并得到我们的答案,每当答案不存在(不可识别性)时,它就以失败退出(Shpitser and Pearl,2006)。

因果推理可以分为两类不同的问题:预测干预的效果和对反事实的推理。第一种是通过做演算来形式化的,而第二种需要假设的、回顾性的思考,也就是说,预测如果过去与实际不同,未来会是什么样子。我认为反事实的算法化(Balke and Pearl,1994a,b)是当代因果关系研究的最高成就之一。这意味着,当我具体说明世界如何运作时,我不必考虑反事实、最近的世界、无知、有条件的无知或一个反事实是否独立于另一个给定三分之一的反事实。没有一个凡人能在认知上处理这些反事实的属性。相反,研究人员简单地写下一组类似于经济学家使用的结构方程,然后所有反事实都被自动计算出来。每一个结构方程模型都决定了每一个反事实句子的“真值”。因此,人们可以计算反事实的Yx是否独立于模型中的任何其他变量,并且你不仅可以根据治疗前的协变量,还可以根据治疗后的协变量来确定Yx。这样,我们就可以估计“结果的原因”,而不仅仅是“原因的影响”(Pearl,2015a)。

这种反事实的计算被封装在一个简单的公式中,我称之为因果推论第一定律

模型M中的反事实Yx(u)是由修正子模型Mx中Y的解定义的,其中X的方程由X=X代替。(Pearl,2015b,定义1)。因果推论、预测、干预和回顾的所有方面,包括做演算的规则,都是从这个无辜的等式中得出的。

当我们惊叹于结构因果模型(SCM)及其衍生物do-calculus的力量时,我们应该意识到两者之间的障碍和后者的局限性。Do-演算被设计来识别严格非参数问题中的因果关系,它位于因果阶梯的第2级(Pearl and Mackenzie,2018)。当它不能提供一个答案时,这意味着没有解存在,因为DAG中假设的非参数性质。这也意味着如果我们希望得到一个解,我们必须放松非参数限制和调用关于方程的泛函形式的假设。典型的假设有线性、可分性、单调性、效果一致性等。

例如,关于工具变量(或自然实验)的大量计量经济学文献依赖于单调性的(不可变)假设(当驱动因素增加时,变量不能减少)。这一假设可以很容易地用SCM语言表述,并产生后期识别公式(Imbens and Rubin,2015)。许多其他任务,包括调解、归因(Pearl,2015a)和个性化Ang Li(2019),同样可以在做演算的范围之外解决,使用等式(1)所包含的强大的反事实逻辑。

普适性

采访者:因果推理的研究人员开始检查外部有效性,也称为泛化性或可移植性。你能描述一下你使用选择图的方法吗?它们解决了哪些因果图没有解决的问题?

Pearl:因果图描述了一个群体。如果要指定两个总体之间的差异,需要讨论两个图。但在许多情况下,两个图表的结构是相同的,差异来自于某些因果关系强度的局部差异。选择图在其中一个图中添加一个节点,表示:“这是一个造成差异的因素。”我们用一个正方形表示这样的节点。您可以将这些节点添加到因果图中,以标记两个总体的不同之处。换句话说,如果变量Z中有一个正方形节点,这意味着两个种群在Z对其父母的响应方面可能不同。

例如,如果洛杉矶的年龄分布与夏威夷不同,我会在年龄中添加一个箭头。它的结果是在怀疑两个种群的同质性的地方用正方形注释的DAG。我们现在需要do-calculus来告诉我们需要知道的东西:“我们能把我们在一个群体中学到的东西推广到另一个群体中吗?”do-calculus将操纵与一个群体相关的表达式,并将它们转化为回答问题的格式(Pearl and Bareinboim,2014)。此外,Elias Barenboim设计了直接生成答案的算法方法,从而绕过了do-calculus(Bareinboim and Pearl,2013)。在Elias的软件中,输入是一个选择图,输出将告诉我们是否可以回答问题。如果可以的话,它会告诉我们必须从每项研究中获得哪些信息,以及如何将它们恰当地结合起来。如果我们按照被告知的方式将它们结合起来,我们将在目标人群中获得对目标答案的一致估计(Bareinboim and Pearl,2016)。

我相信历史将证实我目前的评估,即经过几个世纪的周而复始的猜测和一厢情愿的想法,外部有效性(和可推广性)问题终于在数学上正式化了,现在有了一条通向实际应用的道路。

因果图、反事实和潜在结果

采访者:你说过使用DAGs的方法和潜在的结果有几次是相似的。你能概述一下你认为有什么不同吗?

Pearl:我说它们是“逻辑上等价的”,而不是“相似的”。一个类比就是在极坐标和笛卡尔坐标下解决一个几何问题。鲁宾的框架,被称为“潜在的结果”,不同于结构说明的是,问题是用语言来说明的,因此,也不同于清楚地阐明我们所知道的和可用于导出我们希望知道的东西的数学工具。在潜在结果框架中,问题在代数上被定义为关于反事实独立性的假设,也被称为“无知假设”。这些类型的假设过于复杂,无法通过独立的判断来解释或验证。另一方面,在结构框架中,问题是用存储科学知识的语言--因果图来定义的。反事实的相依性,如果确实需要的话,可以从图中推导出来,但在几乎所有的情况下,都可以用可观察到的事物之间的因果相依性来代替,这些因果相依性在图中生动地表现出来。

一些统计学家和经济学家仍然喜欢代数潜在结果方法的原因令我困惑。但作为一名历史学生,我把它们归因于对新语言的自然抗拒,对传统文化的顺从,以及对严密守卫的社区的忠诚。

结构方法的优点可以概括为三个方面:透明度、功率和可测试性。

透明度代表研究人员的能力:a)记住假设,b)判断它们的合理性,c)确定它们的一致性,最重要的是,d)确定一组清晰的假设是否符合给定识别策略的要求。典型的识别策略是“协变量调整”或“工具变量”。

幂度量了可以找到识别策略的问题实例的空间。例如,DAGs和do-calculus一起可以发现适用于给定(非参数)介入问题的所有辨识策略。前门展示了一种超越“协变量调整”的识别策略。

可测试性代表确定建模假设是否与可用数据兼容的能力。在DAGs中,我们有D-分离准则,它立即转化为与数据相容性的测试。在潜在的结果中,可测试性需要非琐碎的推导(Pearl,2014a)。

当沿着这三个维度进行比较时,结构框架的优势是无可争议的。不幸的是,只有少数研究人员花时间在两个框架中并排比较简单问题的解决方案,就像他们经常被邀请做的那样。相反,潜在结果方法的弱点通常被先验地假设有条件的无知和把识别任务留给偶然的摆布所掩盖。

不可操作变量与因果关系

采访者:你能澄清一下你对将种族等不可操纵的变量视为“原因”的想法吗?

Pearl:“没有操纵就没有因果关系”(Holland,1986)代表了潜在结果共同体的另一个障碍,它未能从最初定义潜在结果的实验设置中解放出来。这种设置要求对概念上可操作的“治疗”的假设结果进行比较。在结构框架中,事情是根本不同的,潜在的结果是由现实模型(手术)定义的。没有什么可以禁止人们获取一个模型,删除输入种族或血压等变量的箭头,然后计算并传达修改后的模型的属性,例如\( Q=P(y|do(x)) \)

对于不可操纵的X,这个方案提出了两个直接的问题。第一:除了作为我们模型的数学属性,Q还传达了什么有用的信息?第二,假设Q传达了现实的一个重要特征,我们如何进行实证检验?如果我们不能测试它,它是科学的一部分吗?

在最近的一篇论文(Pearl,2019a)中,我精确地解决了这两个问题,并表明定义在不可操作变量上的因果效应具有沿着三个维度的经验语义。首先,它们提供了关于其他可操作变量的因果影响的重要信息,而不一定是DO操作符所针对的变量。第二,它们可能有助于识别可操作变量的因果影响,最后,它们可以被测试有效性,尽管是间接的。

因此,关于不可操纵变量的影响及其经验内容的怀疑和恐惧应该让位于欣赏这些理论上定义的影响所提供的重要信息。研究人员不必关心可操作变量和非操作变量之间的区别,当然在实际实验的设计中除外。在分析阶段,包括模型规范、辨识和估计,所有变量都可以一视同仁。

调解分析与跨世界假设

采访者:你对将总的因果影响分解为直接和间接影响有什么想法?

Pearl:我从事效果分解的动机是受到社会科学家雅克·哈格纳斯(《范畴纵向数据》的作者)(Hagenaars,1993)的启发,他让我相信了它的重要性。杰克认为区分直接和间接影响是解决公平和歧视问题的关键。例如,律师明确地将性别歧视描述为性别对工资的直接影响,并使用反事实的表述,如“如果候选人是不同性别,他或她的收入会更高”Carson诉Bethlehem Steel Corp.,FEP案例70,921,CIR第7卷。(1996)。不幸的是,在1994年以前,我不能用这种表达式做太多的事情,因为我不能解析反事实关系“如果他或她是”。一旦我理解了反事实是如何从结构模型中导出的,并对支配反事实的代数感到满意,整个效果分解问题就展现在我眼前了。当我阅读歧视的法律定义时,我突然发现:“任何就业歧视案件的中心问题是,如果雇员是不同的种族(年龄、性别、宗教、民族血统等),其他一切都是相同的,雇主是否会采取同样的行动”卡森诉伯利恒钢铁公司,《FEP案例汇编》第70卷,第921卷,第7卷。(1996)。我所要做的就是把这句话翻译成反事实代数,而且,答对了,直接效应和间接效应的定义自己就出来了,接着是识别条件、中介公式、图形表示和其他好处(Pearl,2012a、b、2014b)。

我在2001年首次将效应分解形式化,但事实上,Jamie Robins和Sander Greenland在9年前发表了一篇关于中介分析的论文(Robins and Greenland,1992),该论文以同样的反事实术语概念化了直接和间接效应,尽管没有体现在数学公式中。值得注意的是,他们最终得出结论,我们无法识别直接和间接的影响,甚至从实验研究中也无法识别。我认为差异的原因是他们未能将反事实纳入等式,因此无法看到识别的机会。显然,原因更复杂。杰米认为,做出识别所需的假设在科学上没有意义,因为它们援引了“跨世界的独立性”。

让我解释一下。每当我们说两个未观察到的因素是独立的,我们很可能会做出跨世界的假设。这是因为,除了二元处理之外,非封闭性--我们唯一可以实证检验的东西--并不意味着无知性。例如,如果我们说 "中国的豆子价格与洛杉矶明天的交通状况无关",我们就是在说,无论价格p是多少,它都与所有可能影响洛杉矶明天交通水平的因素无关,包括隐性的以及可见的。但我们不能保证,如果p与实际观察到的不同,那些相同的因素仍将独立于它。作为科学家,我们可以放心地做出这样的假设,因为我们无法在我们的理论或想象中找到一种机制来解释这两个假设因素之间的相关性。然而,这种相关性仍然是不可验证的,这让一些纯粹主义者感到不舒服。我的观点仍然是,这种假设代表了我们进行生活的动力,不应该被禁止在科学讨论中出现。

2005年,我的学生Chen Avin和Ilya Shpitser提出了一种新的干预方法,我们称之为“路径特定效应”(Avin et al.,2005)。他们的干预措施不是将变量固定为常量,而是禁用变量之间的联系。事实上,当我们试图估计从X到Y通过中介体M的间接影响时,我们需要排除直接影响。但是我们不能通过将任何变量固定为常数来禁用直接效应。相反,我们切断直接链接,让所有其他链接保持不变。

我称由此产生的影响为“自然的”,这一术语很流行,因为干预将单位留在了它们的自然环境中(Pearl,2001)。自然调解分析为我们提供了我认为调查人员会关心的最重要问题的答案:通过禁用调解路径可以防止的观察到的效果的百分比,以及在直接效果被禁用的情况下,仅由调解路径可以维持的百分比。这两种衡量标准在线性系统中变得相同,但在存在互动时却不同,它们抓住了调解的“必要性”和“充分性”方面的区别(Pearl,2012b)。

因果中介分析的思想已经在许多领域流行起来,并导致许多研究人员放弃了自1986年Baron和Kenny的开创性论文(有75,000次引用)(Baron和Kenny,1986)以来一直主导社会和行为科学的回归分析。然而,过渡并不容易。许多大学仍然开设传统调解分析的课程,将调解视为一个统计问题(Hayes,2017),这一传统的文章仍然出现在像《结构方程杂志》这样的保守出版物上。科学以海龟般的步伐前进。

采访者:你以前开发了孪生网络。你能解释一下这些什么时候有用吗?

Pearl:设计了两个网络来回答一个简单的问题:假设有第三个反事实,一个反事实是否独立于另一个反事实。这种类型的问题在潜在结果框架中很重要,在那里它被称为“有条件的无知”,没有它就不可能识别。

在结构框架上情况完全不同。在这里,我们可以直接从DAG中建立识别,使用do-calculus或诸如“后门”和“前门”之类的图形标准。这些标准暗示了“条件不可知觉”,而不显式地显示所涉及的反事实。所以,孪生网络并不是真的需要。

非因果但有趣的问题

采访者:机器学习(ML)在过去的几十年里取得了许多成果,许多研究者都渴望将ML方法引入到因果推理问题中,并利用因果推理实现人类水平的智能。你如何看待你的工作符合这种背景?

Pearl:当我评价机器学习系统的成功时,我看到在因果推理领域发现的障碍恰恰是阻止这些系统实现更高水平智能的障碍。理论上的障碍使我们无法从等级制度的一个层次上升到更高的层次,也使当前的机器无法像人类一样对解释、后悔、公平、责任等等进行推理。

机器学习是一个让我们从数据到概率的工具。但我们仍然需要做两个额外的步骤来从概率进入真正的理解。一个是预测行动的效果,第二个是反事实的想象力。除非我们做出最后两步,否则我们不能声称了解现实(Pearl,2019b)。

哲学家Stephen Toulmin在他富有洞察力的著作《远见与理解》(1961)中认为,从以数据为中心的思维的转变是理解希腊和巴比伦科学之间古代竞争的关键(Toulmin,1961)。根据图尔明的说法,巴比伦天文学家是黑箱预测的大师,在天体观测的准确性和一致性方面远远超过了他们的希腊对手。然而,科学偏爱希腊天文学家的创造性推测策略,这种策略充满了隐喻性的图像:充满火的圆管,通过它可以看到星火的小孔,以及骑在龟背上的半球状地球。正是这种疯狂的建模策略,而不是巴比伦的外推,震撼了埃拉托色尼(公元前276-194年)进行了古代世界最具创造性的实验之一,并计算了地球的周长。一个巴比伦数据拟合者绝不会想到这样的实验。

模型盲方法对强人工智能能够执行的认知任务施加了内在的限制。我的一般结论是,人类水平的人工智能不能仅仅从模型盲学习机器中出现;它需要数据和模型的共生协作。

数据科学是一门科学,只有在它促进数据解释的程度上才是一门科学——一个将数据与现实联系起来的双体问题。数据本身很难说是一门科学,不管它们变得多么“大”,它们被操纵得多么巧妙。模型盲学习系统可能会让我们到达巴比伦,但不能到达雅典。

导师

采访者:你认为谁是你最重要的导师?为什么?

Pearl:我最重要的导师是我的高中老师,他们向我们展示了做科学的乐趣。我的教室墙上总是挂着伟大科学家的照片,我记得我站在其中一位科学家的立场上,问“他会怎么做这个或那个?”所以,从某种意义上说,我有很多导师。

我爱法拉第。他从未受过正规教育。他是一个自学成才的探险家,他非常聪明地使用直觉,以至于他不需要数学或正式定义的帮助。我记得他发明第一台电动机的那一天。当他看到他的磁铁绕着电线旋转时,他高兴得跳了起来。我和他跳过舞。

我也喜欢麦克斯韦,因为他把法拉第的直觉转化为数学方程式。他告诉我,如果你把直觉转化为数学,数学就会放大你的直觉,给你更多的洞察力,用这些洞察力你可以决定下一步做什么实验。法拉第有一个“场”的直觉,麦克斯韦认真对待它,并把它投射到4个微分方程中。然后他看着方程式说:“哇,它们似乎描述了一个波。我们来计算那个波的传播速度。又一个哇!它是光速。答对了,光一定是电磁波。“请注意,这个革命性的发现来自于对方程形式的观察。我从这种想法中得到了很大的启发,它仍然支配着我所做的大部分事情。

另一位导师是笛卡尔。高中时得知他的画法几何时,我病了三天。事实上,你可以用代数来完成所有的几何构造,这让我大吃一惊。我发高烧,三天不能下床。

所以,我有很多精神导师。

出版技术报告

采访者:大多数学者在学术期刊上发表文章。你通常发表技术报告,有时会在期刊上发表。为什么?

Pearl:这就是计算机科学文化。对于一个博士生来说,要想在学术界找到工作,你需要在一流的会议上发表8篇或更多的文章;期刊发表需要太长时间。我网站上的技术报告一般都是这类会议的论文集。其中大部分最终被转化为期刊文章,尽管那些多汁的文章没有被转化;这些文章包含了异端思想或对该领域内受人尊敬的领导人的大胆批评(http://bayes.cs.ucla.edu/csl papers.html)。它们正等待着那些了解科学发展方向的勇敢的编辑们的邀请。