- 简介多智能体强化学习在自动驾驶和其他智能工业应用中变得越来越重要。同时,利用量子力学的固有属性,出现了一种有前途的新型强化学习方法,可以显著减少模型的可训练参数。然而,基于梯度的多智能体量子强化学习方法常常面临着贫瘠高原的困境,无法与经典方法的性能相匹配。我们在现有的无梯度量子强化学习方法基础上,提出了三种基因变异的变分量子电路,用进化优化的方法进行多智能体强化学习。我们在Coin Game环境中评估了我们的基因变异方法,并将它们与经典方法进行了比较。我们表明,与具有相似可训练参数数量的神经网络相比,我们的变分量子电路方法表现显著更好。与更大的神经网络相比,我们的方法使用的参数数量少了97.88%,但能够实现类似的结果。
- 解决问题本文旨在探索基于量子力学的多智能体强化学习方法,解决在自动驾驶和智能工业应用中的问题。同时,提出了使用变分量子电路的遗传算法优化方法,以减少可训练模型的参数数量,避免传统梯度下降法中的平原问题。
- 关键思路本文提出了基于遗传算法优化的多智能体量子强化学习方法,使用变分量子电路,减少可训练模型的参数数量,并避免平原问题。相比传统的神经网络方法,本文提出的方法在Coin Game环境中表现更好,使用的参数数量也少得多。
- 其它亮点本文的亮点包括使用基于量子力学的方法解决多智能体强化学习问题,使用遗传算法优化方法减少可训练模型的参数数量,避免平原问题。实验使用Coin Game环境,比较了本文方法和传统神经网络方法的表现,并且证明了本文方法可以在参数数量更少的情况下达到相似的性能。
- 最近的相关研究包括使用量子神经网络解决强化学习问题的文章,如Quantum Reinforcement Learning和Quantum Advantage in Reinforcement Learning。
沙发等你来抢
去评论
评论
沙发等你来抢