简介:本文提出了一种新的框架来对Contextual Bandits中的线下策略进行估计。我们的方法是基于渐近最优双鲁棒估计方法,但我们缩小了重要性权重以最小化均方误差的上界,从而在有限样本中实现更好的偏置-方差权衡。我们利用这个基于优化的框架得到了三个估计模型: (a)一个权重截断的估计器,(b)一个新的权重收缩估计器,以及 (c) 首个基于收缩的对于组合决策集的估计量。在标准和组合问题上的大量实验表明,我们的估计器具有高度的自适应性与有效性。

链接:https://arxiv.org/pdf/1907.09623.pdf
推荐理由:本文提出了一个优化框架来进行更加准确的Policy Evaluation,其中利用weight shrinkage来解决传统importance weighting方差较大的问题,值得参考。

内容中包含的图片若涉及版权问题,请及时与我们联系删除