简介:受到虚假关联的影响,当测试环境的分布与训练阶段不同的时候,机器学习系统经常会泛化失败。此前的工作在处理这一问题时,或是显式处理或者隐式处理,一般都是试图找到一套表征,这套表征与目标变量之间有不变的因果关系,通常是利用多个不同的训练环境来削弱虚假特征的作用、构建出不变的模型。然而,这些方法仅在数据表征和分类器都是线性模型的时候,才能保证泛化。本文提出了不变因果表征学习(ICRL),是一种能够实现非线性情况(非线性表征和非线性分类器)下的分布外(OOD)泛化的学习范式。这一方法基于一个实用且通用的假设:给定目标变量和环境变量为条件时,数据表征的先验分布是可分解的。基于此,本文展示了在简单变换下,数据表征是可识别的。本文还证明了目标变量的所有直接原因都可以被发现,这进一步使得能够在非线性情况下获得泛化保证。本文在模拟数据集和真实数据集上都做了大量实验,表明提出的方法要显著优于许多基准线方法。最后,在总结部分的讨论中,本文进一步探究了此前提出的假设,并提出了一个通用的视角,叫做“未知假设”:存在一套隐藏的因果变量,既影响输入也影响输出。就表征学习而言,未知假设可以为机器学习提供一个统一的视角,不论是有监督的、无监督的还是强化学习。更重要的是,它可以启发一个新方向去探究识别隐藏因果变量的通用理论,而这正是机器学习中的OOD泛化的关键。
论文链接:
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢