- 简介近年来,多智能体强化学习(MARL)已在自动驾驶、电信和全球卫生等许多科学和工业领域得到应用。然而,MARL存在一些问题,例如维度呈指数级增长。量子力学的固有属性有助于克服这些限制,例如通过显著减少可训练参数的数量。先前的研究开发了一种方法,利用无梯度量子强化学习和变分量子电路(VQCs)的进化优化来减少可训练参数的数量,并避免荒原高原和消失梯度。这导致VQCs的性能显著优于具有类似数量可训练参数的经典神经网络,并将参数数量减少了超过97%。我们通过提出基于门、基于层和基于原型的概念来变异和重组VQCs,扩展了K\"olle等人的方法。我们的结果显示,仅变异策略和基于门的方法表现最佳。特别是,在Coin Game环境中评估时,我们观察到最佳智能体的得分、总收集硬币数和自己的硬币率均显著提高。
- 图表
- 解决问题本文旨在解决多智能体强化学习中参数数量呈指数级增长的问题,并探索利用量子力学的特性来减少可训练参数的方法。
- 关键思路本文提出了利用梯度自由的量子强化学习和进化优化来优化变分量子电路(VQC)的方法,以减少可训练参数的数量。同时,本文还提出了基于门、基于层和基于原型的概念来改进VQC的变异和重组方法。
- 其它亮点本文的实验结果表明,对于变异策略,仅使用变异可以获得最佳表现,并且基于门的方法表现最佳。在Coin Game环境中,最佳智能体的得分、总收集硬币数、自身收集硬币数以及自身硬币率都显著优于其他方法。
- 近年来,多智能体强化学习在自动驾驶、电信和全球卫生等领域得到了广泛应用。与此同时,也有一些研究探索了利用量子力学来解决参数数量呈指数级增长的问题,例如使用量子神经网络来减少可训练参数的数量。
沙发等你来抢
去评论
评论
沙发等你来抢