- 简介大多数强化学习方法使用策略梯度(PG)方法来学习将状态映射到动作的参数随机策略。标准方法是通过神经网络(NN)实现这种映射,其参数使用随机梯度下降进行优化。然而,PG方法容易出现大的策略更新,这可能导致学习效率低下。信任区域算法,如信任区域策略优化(TRPO),限制策略更新步骤,确保单调改进。本文介绍了基于低秩矩阵的模型作为TRPO算法参数估计的有效替代方法。通过将随机策略的参数收集到矩阵中并应用矩阵补全技术,我们促进和强制执行低秩。我们的数值研究表明,与NN模型相比,基于低秩矩阵的策略模型有效地减少了计算和样本复杂性,同时保持可比的累积奖励。
- 图表
- 解决问题本文旨在提出一种更有效的方法来估计TRPO算法的参数,以解决PG方法在更新策略时可能导致学习效率低下的问题。
- 关键思路本文提出了一种低秩矩阵方法,将随机策略的参数收集到矩阵中,并应用矩阵完成技术来促进和强制低秩。相比于使用神经网络的标准PG方法,低秩矩阵方法有效地减少了计算和样本复杂性,同时保持了可比较的累计奖励。
- 其它亮点该论文的实验结果表明,低秩矩阵方法比标准PG方法更有效。同时,该论文还提供了开源代码并使用了两个数据集进行实验。
- 在最近的研究中,也有一些使用低秩矩阵方法来解决强化学习中的问题的论文,如《Low-Rank Matrix Factorization for Deep Reinforcement Learning》。
沙发等你来抢
去评论
评论
沙发等你来抢