简介:我们研究了多种采集策略(Logging Policy)下的离线策略评估问题。每个策略生成一个固定大小的数据集,即分层抽样。以前的工作指出,在这种设置下,不同重要性的抽样估计的方差的顺序是实例依赖的,这带来了一个选择重要性权重的困境。在本文中,我们提出寻找多种采集策略下对于每个实例方差最小的离线策略评估器。特别地,我们建立了分层抽样下的效率界,并提出了一个在给定一致的q-估计时达到该界的估计器。为了防止q-函数的错误说明,我们也提供了一种方法来选择一个假设类中的控制变量来最小化方差。大量的实验证明了我们的方法的有效性。

链接:http://arxiv.org/abs/2010.11002
推荐理由:本文设计了方法来解决多种采集策略下的离线策略评估问题,具有一定的参考价值。

内容中包含的图片若涉及版权问题,请及时与我们联系删除