- 简介Q-learning被广泛认为是实现特定目标的控制器的有效方法。然而,处理连续状态-动作空间所带来的挑战仍然是一个持续的研究重点。本文提出了一种系统分析方法,强调了空间离散化方法的一个主要缺点。为了解决这个挑战,本文提出了一个符号模型,表示行为关系,例如从抽象到受控系统的交替模拟。这种关系允许基于抽象合成控制器无缝地应用于原始系统。引入一种新的符号模型Q-learning技术,该算法产生两个编码最优策略的Q表。理论分析表明,这些Q表既可以作为连续空间原始系统的Q值的上界,也可以作为下界。此外,本文探讨了空间抽象参数与Q值损失之间的相关性。所得算法可以在任意精度内实现最优性,从而控制精度和计算复杂性之间的平衡。所得结果为选择适当的学习参数和改进控制器提供了有价值的见解。通过两个案例研究,展示了所提出的基于Q-learning的符号模型的工程相关性。
- 图表
- 解决问题该论文旨在解决Q-learning在处理连续状态-行为空间时遇到的挑战,并提出了一种符号模型来解决这个问题。
- 关键思路该论文提出了一种基于符号模型的Q-learning技术,通过符号模型实现对连续状态-行为空间的控制。
- 其它亮点该算法可以在任意精度内实现最优性,提供了精度和计算复杂度之间的权衡。论文通过两个案例研究展示了该算法的工程应用价值。
- 近期的相关研究包括: 1. Continuous Q-Learning with Model-Based Acceleration, 2. Continuous Control with Deep Reinforcement Learning
沙发等你来抢
去评论
评论
沙发等你来抢