【论文标题】Benchmarks for Deep Off-Policy Evaluation 【作者团队】J Fu, M Norouzi, O Nachum, G Tucker, Z Wang, A Novikov, M Yang, M R. Zhang, Y Chen, A Kumar, C Paduraru, S Levine, T L Paine 【机 构】UC Berkeley & Google Brain & DeepMind 【论文链接】https://openreview.net/pdf?id=kWSeGEeHvF8

【推荐理由】 本文提出了"深度Off-Policy评价"(Deep Off-Policy Evaluation,DOPE)基准,旨在提供一个平台,用于研究广泛的挑战性任务和数据集的政策评估和选择。与之前基准相比,DOPE提供了多个数据集和策略,包括一系列具有挑战性的高维连续控制问题,广泛选择数据集和策略进行策略选择,允许研究人员研究数据分布如何影响性能,并评估各种指标,包括与离线政策选择相关的指标。

内容中包含的图片若涉及版权问题,请及时与我们联系删除