- 简介使用潜在基于奖励塑形(PBRS)的方法在强化学习(RL)中解决样本效率问题的研究已经显示出很大的前景。然而,选择潜在函数对于该技术的有效性至关重要。此外,由于计算限制,RL技术通常被限制使用有限的时间段,这会在使用PBRS时引入偏差,从而增加了另一层复杂性。在本文中,我们利用抽象来自动生成一个“好”的潜在函数。我们分析了在PBRS的上下文中有限时间段引起的偏差,从而产生了新的见解。最后,为了评估样本效率和性能影响,我们在四个环境中评估了我们的方法,包括一个目标导航任务和三个街机学习环境(ALE)游戏,证明我们可以使用一个简单的全连接网络达到与基于CNN的解决方案相同的性能水平。
-
- 图表
- 解决问题研究如何解决强化学习中的样本低效问题,特别是在使用潜在奖励塑造(PBRS)技术时如何选择潜在函数。此外,如何处理有限时间间隔引入的偏差问题。
- 关键思路使用抽象方法自动产生潜在函数,解决有限时间间隔引入的偏差问题。
- 其它亮点论文使用抽象方法自动产生潜在函数,避免了手动选择潜在函数所带来的问题,实验结果表明该方法在四个环境中的表现与使用CNN的方法相当。
- 近期相关研究包括:1. "Deep Reinforcement Learning with Double Q-learning" 2. "Playing Atari with Deep Reinforcement Learning" 3. "Human-level control through deep reinforcement learning"
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流