作者:Martin Arjovsky, L´eon Bottou, Ishaan Gulrajani, David Lopez-Paz

简介:现今的机器学习面临着一个基本问题,虽然可以通过将训练数据上的误差最小化来学习复杂的预测模型,但实际中数据往往会受到样本选择性偏差(selection bias)、混杂因素(unobserved confounder)和其他因素的影响。因而机器也会受到这样的数据偏差的影响,对于人工智能的实现带来极大的制约。更具体地说,最小化训练误差会导致机器不计后果地吸收训练数据中发现的所有相关性。而我们需要知道数据中的哪些相关性是有用的,这也被称为相关关系与因果关系的“选择困境”,因为源自于数据偏差的虚假相关性与预测目标之间不存在因果关系,使用这样的虚假相关来进行预测是有害的。本文利用因果关系的工具来对数据中的虚假相关性与不变性进行刻画,并提出了不变性风险最小化算法(Invariant Risk Minimization)来减轻模型对数据偏差的过度依赖,使它们能够泛化到新的测试分布。

论文地址:https://arxiv.org/pdf/1907.02893.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除