如何在因果推断中更好地利用数据

作者蚂蚁集团高级算法专家崔卿博士，Yooki 华科整理，DataFun出品

本次分享题目为《如何在因果推断中更好地利用数据？》，主要介绍团队近期在因果上已发表论文的相关工作。本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断，一个是利用历史对照数据来显式缓解混淆偏差，另一个是多源数据融合下的因果推断。

因果推断背景
纠偏因果树 GBCT
因果数据融合
在蚂蚁的业务应用

常见的机器学习预测问题一般设置在同样的系统里面，如通常会假设独立同分布，比如预测吸烟的人中得肺癌的概率、图片分类等预测问题。而因果的问题则关心的是数据背后的机制，常见的问题如“吸烟是否导致肺癌”，类似的问题则为因果的问题。

在因果效应估计问题里有两类很重要的数据：一类是观测数据，另一类则为随机对照实验产生的实验数据。

观测数据是我们实际生活或产品积累下来的数据。比如抽烟的数据，有的人喜欢抽烟，观察数据则是抽烟者的相关数据，最终抽烟者中的一部分人得癌症。机器学习预测问题就是估计条件概率P（得肺癌｜吸烟），即给定吸烟的条件下，观察吸烟者得肺癌的概率。在上述的观测数据中，抽烟的分配实际上并不是随机的：每个人抽烟的偏好不同，同时也会受环境的影响。
回答因果问题最好的方式是进行随机对照实验。实验数据是通过随机对照的实验得到的。在随机对照实验中，treatment 的分配是随机的。假设需要通过做实验的方式得到“吸烟是否会导致肺癌”的结论，首先需要找到足够多的人，强制其中一半人抽烟，同时强制另一半人不抽烟，并观察两组人得肺癌的概率。虽然随机对照试验在部分场景下受制于道德、政策等因素而不可实现，在部分领域中随机对照实验仍可进行，比如在搜推广中的 A/B test 等。

因果估计问题 E(Y|do(X)) 问题和传统的预测或分类问题 E(Y|X) 之间的主要区别在于：给定的条件中出现了 Judy Pearl 提出的干预表示符号 do。通过干预，强制将 X 变量设置为某个值。本次报告分享中的因果效应估计主要指的是从观测数据中估计因果效应。

在因果推断中如何更好地利用数据？本次报告将以两个团队近期已发表论文为例子去介绍这样一个话题。

第一个工作是如何更好地利用历史对照数据。比如在某个时间点举行了一个营销大促的活动，在这个时间点之前的时间称为“干预前”，在这个时间点之后的时间称为“干预后”。我们希望在干预前就知道采取干预将带来多少实际的效果，进而辅助我们做下一步决策。在这次营销活动开始之前，我们拥有用户的历史表现数据，第一个工作主要就是介绍如何利用好“干预前”的数据，辅助数据纠偏工作以更好地评估干预的效果。
第二个工作主要是介绍如何更好地利用多源异构数据。机器学习中也经常会涉及此类问题，常见的问题如 domain adaptation、transfer learning 等。在今天的报告中，将从因果的视角去考虑多源异构数据的利用问题，即假设在有多个数据源的情况下，如何更好地估计因果效应。

纠偏因果树 GBCT

1. 传统的因果树

树算法主要由两个模块组成：

分裂准则：根据分裂准则将一个节点分裂成两个子节点
参数估计：分裂完成后，比如最终停止分裂，根据参数估计的方法在叶子节点上预测新样本或群体的因果效应

一些传统因果树算法是根据因果效应的异质性进行分裂的，基本思想是希望分裂之后的左子节点和右子节点的因果效应差异较大，通过分裂捕捉到不同数据分布的因果效应异质性。

传统因果树的分裂准则，比如：

uplift tree 的分裂准则为最大化左右子节点的因果效应差异，差异的度量使用欧氏距离、KL 散度等距离度量；
causal tree 分裂准则可直观地解释为最大化因果效应的平方。可通过数学证明，该分裂准则等价于最大化叶子节点因果效应方差。

常见的参数估计做法是直接在分裂后的叶子节点上将实验组的平均 outcome 减去对照组的平均 outcome，以此作为因果效应的估计值。如果是随机对照实验，则 treatment 的分配机制是随机的，由此计算得到的平均差值即为因果效应。随机分配机制保证实验组和对照组的数据分布是相同的，即称之为同质。

因果树中分裂得到子节点，可以保证分裂得到的左子节点和右子节点的分布是同质的吗？

2. 纠偏因果树 GBCT

传统的 causal tree、uplift tree 并不能保证分裂后的左子节点和右子节点的分布是同质的。因此上一节提到的传统估计

是有偏的。

我们的工作关注于去估计实验组（treatment组）上的平均因果效应 CATT。CATT 的定义为：

进一步，可将传统的因果效应估计拆分成两部分：

选择偏倚（selection bias/confounding bias）可定义为：

其直观含义为在实验组中 treatment=0 时的估计值，减去在对照组中 treatment=0 时的估计值。在传统的因果树中上述的 bias 是没有被刻画的，选择偏倚可能会影响我们的估计，从而导致最终的估计是有偏的。

我们的思路是利用产品或平台上积累的历史对照数据，从而显式地减少选择偏倚。具体操作是基于两个假设：

假设1：可观测到干预之前实验组和对照组在 treatment=0 的状态下的 outcome 的表现。以金融信贷产品中信用卡产品提额操作为例，在提额之前，我们可观察到用户平时的使用表现，即实验组和对照组在不提额状态下（treatment=0）的 outcome 的表现是可获得的；
假设2：假设 outcome 的 y 在干预前后满足一定的连续性。直观理解为一个用户或群体行为的变化在干预前后不会太剧烈。

参考文献

[1] Tang, C.Z., Wang, H., Li, X., Cui, Q., Zhang, Y.-L., Zhu, F., Li, L., & Zhou, J. (2022). Debiased Causal Tree: Heterogeneous Treatment Effects Estimation with Unmeasured Confounding. Advances in Neural Information Processing Systems 36, 16. https://openreview.net/forum?id=B26CPuYw9VA

[2] Li, X., Li, Y., Cui, Q., Li, L., & Zhou, J. (2022). Robust Direct Learning for Causal Data Fusion. ACML 2022 Long Oral. https://arxiv.org/abs/2211.00249

阅读完整内容请点击这里

内容中包含的图片若涉及版权问题，请及时与我们联系删除

如何在因果推断中更好地利用数据

评论列表

评论