简介:来自因果关系的不变性原则是诸如不变风险最小化(IRM)等方法的核心,这些方法试图解决分布外泛化问题(Out-of-Distribution Generalization Problem)。尽管这个理论很有潜力,但基于不变原理的方法在普通的分类任务中效果不佳,这其中不变(因果)特征捕获了关于标签的所有信息。然而这些失败是由于方法未能捕获不变性特征造成的吗? 还是不变性原则本身就不够? 为了回答这些问题,我们回顾了线性回归任务中的基本假设,其中基于不变的方法被证明可以做到分布外泛化。与线性回归任务相比,我们证明,对于线性分类任务,我们需要对分布偏移有更强的限制,否则分布外泛化是不可能的。此外,即使有适当的分布位移限制,我们也证明了仅靠不变性原理是不够的。我们证明,当不变特征捕获关于标签的所有信息时,一种形式的信息瓶颈约束和不变性原理结合有助于解决关键故障,并且即使在它们没有捕获到有关标签的所有信息时,也能维持现有的分布外泛化性能。我们提出了一种结合这两种原则的方法,并在几个实验中证明了它的有效性。

论文链接:https://arxiv.org/abs/2106.06607

推荐理由:本文将不变学习与信息瓶颈结合了起来,并给出了一系列的模拟实验来说明其必要性,十分具有借鉴意义。