Causality Pursuit from Heterogeneous Environments via Neural Adversarial Invariance Learning

2024年05月07日
  • 简介
    统计学存在一个基本问题,即“内生性诅咒”——回归函数,或者更广泛地说,使用无限数据的预测风险最小化器,可能不是我们希望追求的目标。这是因为当复杂数据来自多个来源时,偏差与个体或亚群体中存在的感兴趣(因果)关联有所偏离,不会被抵消。传统的解决方法是事后的,并且限制在于针对先前的知识,如不可测试的因果结构,导致方法存在模型规范错误和缺乏可扩展性的风险。本文旨在提供一种纯数据驱动的、普适的方法,只利用数据中偏差的异质性,而不是遵循预先提供的命令。这种想法被制定为一个非参数不变性追求问题,其目标是揭示跨异构环境$e\in \mathcal{E}$中具有未知重要变量集$S^\star$的不变条件期望$m^\star(x)\equiv \mathbb{E}[Y^{(e)}|X_{S^\star}^{(e)}=x_{S^\star}]$。在结构因果模型框架下,$m^\star$可以被解释为一般的数据驱动因果关系。本文提出了一个新的框架,称为“聚焦对抗不变性正则化”(FAIR),它被制定为一个单一的极小极大优化程序,可以解决一般的不变性追求问题。正如统一的非渐进分析所示,我们的对抗估计框架可以在各种任务和模型的最小识别条件下获得可证明的样本高效估计,类似于标准回归。作为一个应用,FAIR-NN估计器由两个神经网络类实现,被强调为第一种在一般非参数不变性学习中实现统计高效估计的方法。
  • 图表
  • 解决问题
    解决问题:论文试图通过提出一个纯数据驱动的方法,解决统计学中的内生性问题,即数据中的偏差可能不符合我们所追求的目标。
  • 关键思路
    关键思路:论文提出了一种新的框架FAIR,即Focused Adversarial Invariance Regularization,通过单一的极小极大化优化程序解决不变性追求问题。该框架只使用数据中的偏差异质性,避免了事先设定的命令式方法的风险。FAIR可以实现可证明的高效估计,类似于标准回归,适用于各种任务和模型。论文的一个亮点是提出了FAIR-NN估计器,是第一个在一般非参数不变性学习中实现统计有效估计的方法。
  • 其它亮点
    其他亮点:论文在统一的非渐进分析中进行了说明,通过两个神经网络类实现FAIR-NN估计器。论文还应用了结构性因果模型,提供了数据驱动的因果性解释。实验结果表明,FAIR的性能优于现有方法。论文开源了代码,提供了数据集。值得进一步研究的是,如何将FAIR应用于更多的机器学习任务和模型中。
  • 相关研究
    相关研究:最近的相关研究包括:'Invariant Risk Minimization','Causal Inference with Deep Learning','Fairness Through Causal Awareness: Learning Causal Latent Variable Models for Fair Clustering'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论