简介:因果推理在许多领域的决策中扮演着重要的角色,如社会营销、医疗保健和公共政策。因果推理的一个基本问题是观察性研究中变量混淆时的治疗效果估计。控制混杂效应通常由倾向评分来处理。但它将所有观察到的变量视为混杂变量,忽略了对治疗没有影响但对结果有预测作用的调整变量。最近,已经证明调整变量在降低估计的治疗效果的方差方面是有效的。然而,如何在观察性研究中自动分离混杂因素和调整变量仍然是一个开放的问题,尤其是在大数据时代常见的高维变量场景中。本文首先提出了一种数据驱动变量分解(Data-Driven Variable Decomposition, D2VD)算法,该算法可以通过数据驱动的方法自动分离混杂变量和调整变量,同时估计高维变量观察性研究的处理效果。在标准假设下,我们从理论上证明了我们的D2VD算法能够无偏估计处理效果,并且比传统的基于倾向评分的方法具有更低的方差。此外,为了解决高维变量和非线性的挑战,我们将D2VD扩展为非线性版本,即非线性D2VD (N-D2VD)算法。为了验证我们提出的算法的有效性,我们在模拟数据集和真实数据集上进行了大量的实验。实验结果表明,与现有方法相比,我们的D2VD和N-D2VD算法能够自动准确地分离变量,以更精确的置信区间估计处理效果。我们还证明了我们算法的排名靠前的特征在在线广告数据集上有最好的预测性能。
链接:https://ieeexplore.ieee.org/document/9133279
推荐理由:本文是况琨老师和崔鹏老师的工作,在之前DVD算法的基础上进行了扩展,用于非线性情形,值得推荐。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢