俄勒冈州立大学|超越价值：在基于计划的 RL 中测试推理的清单

【标题】Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL

【作者团队】Kin-Ho Lam, Delyar Tabatabai, Jed Irvine, Donald Bertucci, Anita Ruangrotsakun, Minsuk Kahng, Alan Fern

【发表日期】2022.6.24

【论文链接】https://arxiv.org/pdf/2206.02039.pdf

【推荐理由】强化学习 (RL) 智能体通常通过其在测试场景分布上的预期值进行评估。然而这种评估方法为超出测试分布的部署后泛化提供了有限的证据。本文通过将最近的 CheckList 测试方法从自然语言处理扩展到基于计划的 RL 来解决这个限制。本文考虑使用学习的转换模型和价值函数测试通过在线树搜索做出决策的 RL 智能体。关键思想是通过 CheckList 方法改进对未来性能的评估，以在树搜索期间探索和评估智能体的推理。该方法为用户提供了一个界面和通用查询规则机制，用于识别潜在的推理缺陷和验证预期的推理不变性。本文展示了一项研究使用该方法评估受过训练以玩复杂实时策略游戏的智能体。结果表明，该方法在允许用户识别智能体推理中以前未知的缺陷方面是有效的，这可能有助于改进未来的实例化。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

俄勒冈州立大学|超越价值：在基于计划的 RL 中测试推理的清单

评论