【标题】The Impact of Task Underspecification in Evaluating Deep Reinforcement Learning
【作者团队】Vindula Jayawardana, Catherine Tang, Sirui Li, Dajiang Suo, Cathy Wu
【发表日期】2022.10.16
【论文链接】https://arxiv.org/pdf/2210.08607.pdf
【推荐理由】深度强化学习 (DRL) 方法的评估是该领域科学进步的一个组成部分。除了为通用智能设计 DRL 方法之外,设计特定于任务的方法在现实世界的应用中变得越来越重要。在这些设置中,标准评估实践涉及使用马尔可夫决策过程 (MDP) 的一些实例来表示任务。然而,由于底层环境的变化,许多任务会引发大量的 MDP,尤其是在现实世界中。 例如,在交通信号控制中,变化可能源于交叉口的几何形状和交通流量水平。因此,选择的 MDP 实例可能会无意中导致过度拟合,缺乏统计能力来得出关于该方法在整个家族中的真实性能的结论。本文中增加了 DRL 评估以考虑 MDP 的参数化家族。与在选定的 MDP 实例上评估 DRL 方法相比,评估 MDP 系列通常会产生截然不同的方法相对排名,从而怀疑哪些方法应该被视为最先进的方法。 作者在标准控制基准和交通信号控制的实际应用中验证了这一现象。
评论
沙发等你来抢