【标题】Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning
【作者团队】Adam Villaflor, Zhe Huang, Swapnil Pande
【发表日期】2022.7.22
【论文链接】https://arxiv.org/pdf/2207.10295.pdf
【推荐理由】基于 Transformer 神经网络架构的自然语言处理 (NLP) 的令人印象深刻的结果启发了研究人员探索将离线强化学习 (RL) 视为通用序列建模问题。 最近基于这种范式的工作已经在几个最确定的离线 Atari 和 D4RL 基准测试中取得了最先进的结果。 然而,由于这些方法将状态和行动共同建模为一个单一的排序问题,因此它们难以理清政策和世界动态对回报的影响。 因此,在对抗性或随机环境中,这些方法会导致过于乐观的行为,这在自动驾驶等安全关键系统中可能是危险的。 本文提出了一种通过明确分离政策和世界模型来解决这种乐观偏见的方法,能够在测试时搜索对环境中多种可能的未来具有鲁棒性的政策。 本文在模拟中展示了作者的方法在各种自动驾驶任务中的卓越性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢