简介:在Contextual Bandits的离线策略评估中,重要性抽样权重的估计通常会导致不平衡,即价券后的状态-决策对的期望分布与实际分布不匹配。在本文中,我们提出了平衡的离线策略评估算法,一个估计权重并减小不平衡性的通用方法。我们将这些权重的估计归结为了一个与决策类型无关的而分类问题,并证明了最小化分类器的风险恰恰意味着最小化期望的反事实分布的不平衡性。进一步的,这与离线策略评估的误差联系起来,使得可以方便的调整超参数。我们的试验结果证明了本方法提升了基于加权的离线策略评估性能,包括离散与连续的决策空间下。

链接:http://arxiv.org/abs/1906.03694
推荐理由:本文关注了加权前后的平衡性问题,并与分类问题建立了联系,具有参考价值。

内容中包含的图片若涉及版权问题,请及时与我们联系删除