简介:我们研究了在上下文老虎机(Contextual Bandit Model)下的线下策略评估问题——利用另一种策略收集的数据估计目标策略的价值。我们考虑了一般的(不可知的)问题设定,而没有假设奖励模型是一致的,并建立了均方误差(MSE)的极大极小下界。通过逆倾向评分(IPS)和双鲁棒(DR)估计可以使这个边界变为常数。这突出了不可知情境设定的难度,与多臂老虎机和使用一致奖励模式的上下文老虎机相比,在这种问题设定下逆倾向评分是次优的。本文中我们提出SWITCH估计方法,可以使用现有的奖励模型(不一定是一致的)来实现相比于逆倾向评分和双鲁棒估计更好的Bias-Variance Tradeoff。我们证明了该方法均方误差的上界,并在多个数据集上展现了该方法的优越性。

链接:https://arxiv.org/abs/1612.01205
推荐理由:本文研究了更加一般性的Contextual Bandit Model下的策略评估问题,并提出了显著更好的方法来实现更加准确的评估,对于Policy Evaluation领域的发展做出了贡献。

内容中包含的图片若涉及版权问题,请及时与我们联系删除