Value Improved Actor Critic Algorithms

简介

许多现代强化学习算法基于演员-评论家（AC）框架：使用策略改进算子迭代改进策略（演员），并使用策略值（评论家）的迭代逼近来改进策略。相比之下，流行的基于价值的算法家族采用价值更新中的改进算子，直接迭代改进价值函数。在这项工作中，我们提出了一种扩展AC框架的通用方法，它采用两个单独的改进算子：一个应用于策略，遵循基于策略的算法的精神，另一个应用于价值，遵循基于价值的算法的精神，我们将其称为价值改进AC（VI-AC）。我们基于流行的在线离线AC算法TD3和DDPG设计了两种实用的VI-AC算法。我们在Mujoco基准测试中评估了VI-TD3和VI-DDPG，并发现它们在所有测试环境中都能改进或匹配各自基准的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的强化学习算法框架，即Value-Improved AC（VI-AC），以解决现有框架中存在的问题。
关键思路

VI-AC框架结合了基于策略的算法和基于价值的算法，通过两种不同的改进操作同时优化策略和价值函数，从而提高强化学习算法的性能。
其它亮点

论文提出了两个基于VI-AC框架的实用算法VI-TD3和VI-DDPG，并在Mujoco基准测试中对其进行了评估。实验结果表明，VI-TD3和VI-DDPG在所有测试环境中均优于或与其各自的基线算法相当。
相关研究

近期的相关研究包括： 1. TD3和DDPG等强化学习算法的改进版本。 2. 基于策略的算法和基于价值的算法的结合研究。

Value Improved Actor Critic Algorithms

提问交流

提问交流