【标题】Graph Convolutional Recurrent Networks for Reward Shaping in Reinforcement Learning
【作者团队】Hani Sami, Jamal Bentahar, Azzam Mourad
【发表日期】2022.6.18
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522006442
【推荐理由】在本文中,作者考虑了强化学习 (RL) 中的低速收敛问题,提出了一种新的奖励生成方案,它结合了 (1) 图卷积循环网络 (GCRN)、(2) 增强型 Krylov 和 (3) 前瞻建议以形成潜在函数。作者提出了一种 GCRN 架构,它结合了图卷积网络 (GCN) 来捕获空间依赖关系和双向门控循环单元 (Bi-GRU) 来解决时间依赖关系。作者对 GCRN 损失函数的定义结合了隐马尔可夫模型 (HMM) 的消息传递技术。由于环境的转移矩阵难以计算,使用 Krylov 基来估计转移矩阵,其性能优于现有的近似基。与仅依赖状态来执行奖励塑造的现有潜在功能不同,作者通过前瞻建议机制同时使用状态和动作来产生更精确的建议。各项测试表明,本文的解决方案在学习速度方面优于当前最先进的解决方案,同时获得更高的奖励。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢