简介:我们研究了在多维决策下,利用批量Contextual Bandit数据进行离线策略评估的问题。该问题在推荐系统和用户界面优化中十分常见,并且由于其具有组合大小的决策空间,这个问题尤其具有挑战性。Swaminathan等人假设了条件平均奖励对于决策具有可加性,并据此提出了伪逆估计器(Pseudoinverse (PI) Estimator)。使用控制变量,我们考虑了一大类无偏评估方法,其中包括了伪逆估计器以及他的自归一化变种。通过对该类方法进行优化,我们获得了新的评估,其在伪逆与自归一化伪逆估计值上都具有更优的误差保证。模拟实验与真实实验均说明了本方法的有效性。
链接:http://arxiv.org/abs/2106.07914
推荐理由:本文研究了具有挑战性的多维决策下的离线策略评估问题,并提出了新的方法来实现更好的评估效果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢