On the Sample Efficiency of Abstractions and Potential-Based Reward Shaping in Reinforcement Learning

简介

使用潜在基于奖励塑形（PBRS）的方法在强化学习（RL）中解决样本效率问题的研究已经显示出很大的前景。然而，选择潜在函数对于该技术的有效性至关重要。此外，由于计算限制，RL技术通常被限制使用有限的时间段，这会在使用PBRS时引入偏差，从而增加了另一层复杂性。在本文中，我们利用抽象来自动生成一个“好”的潜在函数。我们分析了在PBRS的上下文中有限时间段引起的偏差，从而产生了新的见解。最后，为了评估样本效率和性能影响，我们在四个环境中评估了我们的方法，包括一个目标导航任务和三个街机学习环境（ALE）游戏，证明我们可以使用一个简单的全连接网络达到与基于CNN的解决方案相同的性能水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究如何解决强化学习中的样本低效问题，特别是在使用潜在奖励塑造（PBRS）技术时如何选择潜在函数。此外，如何处理有限时间间隔引入的偏差问题。
关键思路

使用抽象方法自动产生潜在函数，解决有限时间间隔引入的偏差问题。
其它亮点

论文使用抽象方法自动产生潜在函数，避免了手动选择潜在函数所带来的问题，实验结果表明该方法在四个环境中的表现与使用CNN的方法相当。
相关研究

近期相关研究包括：1. "Deep Reinforcement Learning with Double Q-learning" 2. "Playing Atari with Deep Reinforcement Learning" 3. "Human-level control through deep reinforcement learning"

On the Sample Efficiency of Abstractions and Potential-Based Reward Shaping in Reinforcement Learning

提问交流

提问交流