简介:离线策略评估(OPE)的目的是利用不同策略生成的数据估计不同策略的性能。由于其在实践中的巨大潜在影响,这一领域收到了越来越多的关注。然而,现实世界中没有能够评估OPE的公共数据集,这使得其实验研究不切实际且不可复现。为了实现现实和可复现的OPE研究,我们提出了Open Bandit Dataset,这是一个在大型时尚电子商务平台ZOZOTOWN上收集的公开的数据集。我们的数据集是首个包含多种收集策略的数据集,这些数据集是通过在同一个平台上运行不同的策略收集的。这使得第一次可以对不同的OPE估计器进行实验比较。我们还开发了名为Open Bandit Pipeline的Python软件,以简化和标准化OPE算法的实现。我们的开放数据和软件将有助于公平和透明的OPE研究,并帮助社区确定富有成效的研究方向。我们使用我们的数据集和软件为现有的OPE估计器提供广泛的基准测试实验。这些结果为未来的OPE研究提供了必要的挑战和新的途径。

链接:http://arxiv.org/abs/2008.07146
推荐理由:本文为离线策略评估领域的研究提供了公开的基准数据集,用以支撑不同算法的比较,对于本领域的发展具有极大的推动作用,相关的研究者可以密切关注这篇文章以及相应的数据集。

内容中包含的图片若涉及版权问题,请及时与我们联系删除