Learning Decision Policies with Instrumental Variables through Double Machine Learning

简介

在数据丰富的情况下学习决策制定策略时，常见问题是离线数据集中的虚假相关性，这可能是由于隐藏的混淆因素造成的。工具变量（IV）回归是一种标准技术，它利用一种称为工具的关键未混杂变量来学习混淆行动、结果和上下文变量之间的因果关系。最近的大多数IV回归算法使用两阶段方法，其中第一阶段学习的深度神经网络（DNN）估计器直接插入第二阶段，第二阶段使用另一个DNN来估计因果效应。简单地插入估计器可能会导致第二阶段出现严重偏差，特别是当第一阶段估计器中存在正则化偏差时。我们提出了DML-IV，一种非线性IV回归方法，它减少了两阶段IV回归中的偏差，有效地学习高性能策略。我们推导了一个新的学习目标来减少偏差，并遵循双重/去偏机器学习（DML）框架设计了DML-IV算法。学习的DML-IV估计器具有强大的收敛速度和$O(N^{-1/2})$的次优性保证，这与数据集未混杂时的保证相匹配。DML-IV在IV回归基准测试中优于最先进的IV回归方法，并在存在工具变量的情况下学习高性能策略。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

提出一种解决离线数据集中潜在变量引起的虚假相关性问题的非线性工具——DML-IV

关键思路

DML-IV算法通过DML框架设计出新的学习目标，降低二阶段IV回归中的偏差，并有效地学习高性能策略

其它亮点

DML-IV算法在IV回归基准测试中表现优异，并在存在工具变量的情况下学习高性能策略。具有强的收敛速率和与非混淆数据集相匹配的次优性保证

Learning Decision Policies with Instrumental Variables through Double Machine Learning

提问交流

提问交流