UC Berkeley | 深度Off-Policy评价基准

【论文标题】Benchmarks for Deep Off-Policy Evaluation 【作者团队】J Fu, M Norouzi, O Nachum, G Tucker, Z Wang, A Novikov, M Yang, M R. Zhang, Y Chen, A Kumar, C Paduraru, S Levine, T L Paine 【机构】UC Berkeley & Google Brain & DeepMind 【论文链接】https://openreview.net/pdf?id=kWSeGEeHvF8

【推荐理由】本文提出了"深度Off-Policy评价"(Deep Off-Policy Evaluation，DOPE)基准，旨在提供一个平台，用于研究广泛的挑战性任务和数据集的政策评估和选择。与之前基准相比，DOPE提供了多个数据集和策略，包括一系列具有挑战性的高维连续控制问题，广泛选择数据集和策略进行策略选择，允许研究人员研究数据分布如何影响性能，并评估各种指标，包括与离线政策选择相关的指标。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

UC Berkeley | 深度Off-Policy评价基准

评论列表

评论