Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

简介

考虑价值函数的不确定性可以增强强化学习中的探索能力。我们的工作引入了最大均值差异Q学习（MMD-QL）来改进时间差分（TD）更新中的Wasserstein Q学习（WQL）以实现不确定性传播。MMD-QL使用MMD重心来实现这一目的，因为MMD提供了比Wasserstein距离更紧密的概率测度之间的相似性估计。首先，我们证明了在平均损失度量下，MMD-QL在MDP（PAC-MDP）中可能近似正确。关于累积奖励，对表格环境的实验表明，MMD-QL优于WQL和其他算法。其次，我们将深度网络融入MMD-QL中，创建了MMD Q网络（MMD-QN）。在合理的假设下，我们使用函数逼近分析了MMD-QN的收敛速度。在具有挑战性的Atari游戏上的实证结果表明，与基准深度强化学习算法相比，MMD-QN表现良好，突显了其处理大状态-动作空间的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决强化学习中价值函数不确定性对探索的影响问题，并提出了一种新的算法MMD-QL用于不确定性传播。
关键思路

MMD-QL使用MMD barycenter来传播不确定性，相比于Wasserstein距离提供了更紧密的概率测量，该算法在tabular环境和Atari游戏中的实验结果表明其在累积奖励方面优于WQL和其他算法。同时，将深度网络引入MMD-QL中创建了MMD-QN，该算法在处理大状态-动作空间方面表现出了较好的效果。
其它亮点

实验使用了tabular环境和Atari游戏，结果表明MMD-QL在累积奖励方面优于其他算法。同时，MMD-QN在处理大状态-动作空间方面表现出了较好的效果。
相关研究

与该论文相关的研究包括Wasserstein Q-Learning和其他强化学习算法，例如DQN、A3C等。

Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

提问交流

提问交流