On the Sample Efficiency of Abstractions and Potential-Based Reward Shaping in Reinforcement Learning

2024年04月11日
  • 简介
    使用潜在基于奖励塑形(PBRS)的方法在强化学习(RL)中解决样本效率问题的研究已经显示出很大的前景。然而,选择潜在函数对于该技术的有效性至关重要。此外,由于计算限制,RL技术通常被限制使用有限的时间段,这会在使用PBRS时引入偏差,从而增加了另一层复杂性。在本文中,我们利用抽象来自动生成一个“好”的潜在函数。我们分析了在PBRS的上下文中有限时间段引起的偏差,从而产生了新的见解。最后,为了评估样本效率和性能影响,我们在四个环境中评估了我们的方法,包括一个目标导航任务和三个街机学习环境(ALE)游戏,证明我们可以使用一个简单的全连接网络达到与基于CNN的解决方案相同的性能水平。
  • 作者讲解
  • 图表
  • 解决问题
    研究如何解决强化学习中的样本低效问题,特别是在使用潜在奖励塑造(PBRS)技术时如何选择潜在函数。此外,如何处理有限时间间隔引入的偏差问题。
  • 关键思路
    使用抽象方法自动产生潜在函数,解决有限时间间隔引入的偏差问题。
  • 其它亮点
    论文使用抽象方法自动产生潜在函数,避免了手动选择潜在函数所带来的问题,实验结果表明该方法在四个环境中的表现与使用CNN的方法相当。
  • 相关研究
    近期相关研究包括:1. "Deep Reinforcement Learning with Double Q-learning" 2. "Playing Atari with Deep Reinforcement Learning" 3. "Human-level control through deep reinforcement learning"
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问