- 简介许多现代强化学习算法基于演员-评论家(AC)框架:使用策略改进算子迭代改进策略(演员),并使用策略值(评论家)的迭代逼近来改进策略。相比之下,流行的基于价值的算法家族采用价值更新中的改进算子,直接迭代改进价值函数。在这项工作中,我们提出了一种扩展AC框架的通用方法,它采用两个单独的改进算子:一个应用于策略,遵循基于策略的算法的精神,另一个应用于价值,遵循基于价值的算法的精神,我们将其称为价值改进AC(VI-AC)。我们基于流行的在线离线AC算法TD3和DDPG设计了两种实用的VI-AC算法。我们在Mujoco基准测试中评估了VI-TD3和VI-DDPG,并发现它们在所有测试环境中都能改进或匹配各自基准的性能。
-
- 图表
- 解决问题本论文旨在提出一种新的强化学习算法框架,即Value-Improved AC(VI-AC),以解决现有框架中存在的问题。
- 关键思路VI-AC框架结合了基于策略的算法和基于价值的算法,通过两种不同的改进操作同时优化策略和价值函数,从而提高强化学习算法的性能。
- 其它亮点论文提出了两个基于VI-AC框架的实用算法VI-TD3和VI-DDPG,并在Mujoco基准测试中对其进行了评估。实验结果表明,VI-TD3和VI-DDPG在所有测试环境中均优于或与其各自的基线算法相当。
- 近期的相关研究包括: 1. TD3和DDPG等强化学习算法的改进版本。 2. 基于策略的算法和基于价值的算法的结合研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流