Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy

简介

我们介绍了一种新颖的双重稳健（DR）离线策略评估（OPE）估计器DRUnknown，用于在记录策略和价值函数都未知的情况下进行马尔可夫决策过程的评估。所提出的估计器首先估计记录策略，然后通过考虑记录策略的估计效果来最小化估计器的渐近方差，从而估计价值函数模型。当记录策略模型被正确指定时，DRUnknown在包含现有OPE估计器的类中实现了最小的渐近方差。当价值函数模型也被正确指定时，DRUnknown是最优的，因为其渐近方差达到了半参数下限。我们在上下文臂和强化学习中进行了实验，以比较DRUnknown与现有方法的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出了一种新的双重稳健（DR）离线策略评估（OPE）估计器，名为DRUnknown，旨在解决策略记录和价值函数均未知的情况下的问题。
关键思路

DRUnknown首先估计策略记录，然后通过考虑策略记录的估计效果来最小化估计器的渐近方差，从而估计价值函数模型。当策略记录模型被正确地指定时，DRUnknown在包含现有OPE估计器的类中实现最小的渐近方差。当价值函数模型也被正确地指定时，DRUnknown是最优的，因为它的渐近方差达到了半参数下限。
其它亮点

论文在上下文臂和强化学习中进行了实验，以比较DRUnknown与现有方法的性能。值得关注的是，DRUnknown在策略记录和价值函数均未知的情况下表现出色，并且在正确指定模型的情况下具有最小的渐近方差。
相关研究

最近的相关研究包括“Off-policy Evaluation for Slate Recommendation”和“Doubly Robust Learning and Optimization”。

Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy

提问交流

提问交流