作者蚂蚁集团高级算法专家崔卿博士,Yooki 华科整理,DataFun出品
本次分享题目为《如何在因果推断中更好地利用数据?》,主要介绍团队近期在因果上已发表论文的相关工作。本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
-
因果推断背景
-
纠偏因果树 GBCT
-
因果数据融合
-
在蚂蚁的业务应用
常见的机器学习预测问题一般设置在同样的系统里面,如通常会假设独立同分布,比如预测吸烟的人中得肺癌的概率、图片分类等预测问题。而因果的问题则关心的是数据背后的机制,常见的问题如“吸烟是否导致肺癌”,类似的问题则为因果的问题。
-
观测数据是我们实际生活或产品积累下来的数据。比如抽烟的数据,有的人喜欢抽烟,观察数据则是抽烟者的相关数据,最终抽烟者中的一部分人得癌症。机器学习预测问题就是估计条件概率P(得肺癌|吸烟),即给定吸烟的条件下,观察吸烟者得肺癌的概率。在上述的观测数据中,抽烟的分配实际上并不是随机的:每个人抽烟的偏好不同,同时也会受环境的影响。 -
回答因果问题最好的方式是进行随机对照实验。实验数据是通过随机对照的实验得到的。在随机对照实验中,treatment 的分配是随机的。假设需要通过做实验的方式得到“吸烟是否会导致肺癌”的结论,首先需要找到足够多的人,强制其中一半人抽烟,同时强制另一半人不抽烟,并观察两组人得肺癌的概率。虽然随机对照试验在部分场景下受制于道德、政策等因素而不可实现,在部分领域中随机对照实验仍可进行,比如在搜推广中的 A/B test 等。
因果估计问题 E(Y|do(X)) 问题和传统的预测或分类问题 E(Y|X) 之间的主要区别在于:给定的条件中出现了 Judy Pearl 提出的干预表示符号 do。通过干预,强制将 X 变量设置为某个值。本次报告分享中的因果效应估计主要指的是从观测数据中估计因果效应。
-
第一个工作是如何更好地利用历史对照数据。比如在某个时间点举行了一个营销大促的活动,在这个时间点之前的时间称为“干预前”,在这个时间点之后的时间称为“干预后”。我们希望在干预前就知道采取干预将带来多少实际的效果,进而辅助我们做下一步决策。在这次营销活动开始之前,我们拥有用户的历史表现数据,第一个工作主要就是介绍如何利用好“干预前”的数据,辅助数据纠偏工作以更好地评估干预的效果。 -
第二个工作主要是介绍如何更好地利用多源异构数据。机器学习中也经常会涉及此类问题,常见的问题如 domain adaptation、transfer learning 等。在今天的报告中,将从因果的视角去考虑多源异构数据的利用问题,即假设在有多个数据源的情况下,如何更好地估计因果效应。
纠偏因果树 GBCT
-
分裂准则:根据分裂准则将一个节点分裂成两个子节点 -
参数估计:分裂完成后,比如最终停止分裂,根据参数估计的方法在叶子节点上预测新样本或群体的因果效应
-
uplift tree 的分裂准则为最大化左右子节点的因果效应差异,差异的度量使用欧氏距离、KL 散度等距离度量; -
causal tree 分裂准则可直观地解释为最大化因果效应的平方。可通过数学证明,该分裂准则等价于最大化叶子节点因果效应方差。
-
假设1:可观测到干预之前实验组和对照组在 treatment=0 的状态下的 outcome 的表现。以金融信贷产品中信用卡产品提额操作为例,在提额之前,我们可观察到用户平时的使用表现,即实验组和对照组在不提额状态下(treatment=0)的 outcome 的表现是可获得的; -
假设2:假设 outcome 的 y 在干预前后满足一定的连续性。直观理解为一个用户或群体行为的变化在干预前后不会太剧烈。
参考文献
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢