Highway Graph to Accelerate Reinforcement Learning

简介

强化学习（RL）算法通常存在训练效率低的问题。缓解这个问题的策略是将基于模型的规划算法，如蒙特卡罗树搜索（MCTS）或值迭代（VI），纳入环境模型中。VI的主要限制是需要迭代大型张量，这仍然需要进行密集的计算。我们专注于通过改进价值学习过程的效率来提高RL算法的训练效率。对于具有离散状态和动作空间的确定性环境，非分支转换序列可以将代理移动而不偏离中间状态，我们称之为高速公路。在这样的非分支高速公路上，价值更新过程可以合并为一步过程，而不是逐步迭代价值。基于这一观察，我们提出了一种新的图形结构，称为高速公路图，来模拟状态转换。我们的高速公路图将转换模型压缩为简明的图形，其中边可以表示多个状态转换，以支持每次迭代中跨多个时间步骤的值传播。因此，通过促进VI算法在高速公路图上，我们可以获得更有效的值学习方法。通过将高速公路图集成到RL中（作为基于模型的离线策略RL方法），RL训练可以在早期阶段（在100万帧内）显着加速。对四类环境进行各种基线的比较表明，我们的方法优于代表性和新颖的无模型和基于模型的RL算法，表现出10到150多倍的效率，同时保持相等或更高的预期回报，经过仔细的分析得到了确认。此外，使用高速公路图训练基于深度神经网络的代理，结果具有更好的泛化性能和更低的存储成本。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

提高强化学习算法的训练效率。

关键思路

通过构建高速公路图结构，将值更新过程合并为一步，从而加速值学习过程。

其它亮点

论文提出了一种名为高速公路图的图结构，用于建模状态转移。通过该结构，可以在早期阶段大幅加速强化学习的训练，同时保持预期回报的质量。实验结果显示，该方法在效率上比目前主流的强化学习算法提高了10到150倍。此外，论文还使用深度神经网络训练了一个基于高速公路图的智能体，实现了更好的泛化能力和更低的存储成本。

Highway Graph to Accelerate Reinforcement Learning

提问交流

提问交流