【亚利桑那州立大学刘欢团队】通过替代表征估计长期因果效应

论文名称：Long-Term Effect Estimation with Surrogate Representation 作者：Lu Cheng, Ruocheng Guo, Huan Liu 发表时间：2020/8/19 论文链接：https://arxiv.org/pdf/2008.08236.pdf

推荐理由 本文来自 IEEE Fellow、亚利桑那州立大学刘欢教授团队。在机器学习领域，如何将长期效应引入时序建模问题一直是一个经久不衰的难题，著名的 LSTM 便通过门控机制建立了较长的长距离时序依赖关系。在本文中，作者从因果推理的角度出发，针对某种干预（intervention）的短期和长期因果效应不同的问题（例如，某条低质量的广告可能在短期内会导致商品点击量增加，但在长期内会降低点击量，从而导致利润损失），研究了数月/数年的时间段内对主要结果（primary outcome）的长期因果效应。

图 1：长短期因果效应

在本文中，作者针对以下挑战展开了研究：（1）由于较大的估计误差和方差导致的混杂偏倚（2）短期输出往往直接被用于主要结果（primary outcome）的替代品。为了应对以上挑战，作者基于循环神经网络 RNN，提出了将长期因果推理和序列模型相结合的机器学习架构。他们以潜 RNN 的潜在空间中的实变混杂因子为条件，学习替代表征（surrogfate representations），从而实现时序上的非混杂性（unconfoundedness ），并且避开严格的替代假设（surrogacy assumption）。

图 2：LTEE 框架示意图

具体而言，在 LTEE 框架中，作者首先将上下文信息 X 变换到潜在空间中，再分别为实验组（即干预组）和控制组训练一个 RNN，从而构成一个双通路 RNN。在每个时间步中，RNN 会输出替代表征，从而同时执行两个子任务：（1）预测 t 时刻的输出（2）保持实验组和控制组替代表征分布之间的相似性。实验结果表明，本文提出的 LTEE 框架的性能优于 SInd、Naive、Causal Forest、TARNet、Interpolate 等目前最先进的方法。

本文主要的贡献如下： (1)形式化定义了估计长期因果效应的问题。 (2)提出了条理化的 LTEE 框架，将因果推理的理论结果与序列模型相结合，从而提升了估计效率。 (3)提出了较弱的假设，避开了标准的严格假设。 (4)实验结果表明，在两种半合成的数据集上，在不使用目标数据中的短期结果的情况下，LTEE 的性能优于目前最先进的方法。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

【亚利桑那州立大学刘欢团队】通过替代表征估计长期因果效应

评论列表

评论