Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

2024年03月31日
  • 简介
    考虑价值函数的不确定性可以增强强化学习中的探索能力。我们的工作引入了最大均值差异Q学习(MMD-QL)来改进时间差分(TD)更新中的Wasserstein Q学习(WQL)以实现不确定性传播。MMD-QL使用MMD重心来实现这一目的,因为MMD提供了比Wasserstein距离更紧密的概率测度之间的相似性估计。首先,我们证明了在平均损失度量下,MMD-QL在MDP(PAC-MDP)中可能近似正确。关于累积奖励,对表格环境的实验表明,MMD-QL优于WQL和其他算法。其次,我们将深度网络融入MMD-QL中,创建了MMD Q网络(MMD-QN)。在合理的假设下,我们使用函数逼近分析了MMD-QN的收敛速度。在具有挑战性的Atari游戏上的实证结果表明,与基准深度强化学习算法相比,MMD-QN表现良好,突显了其处理大状态-动作空间的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决强化学习中价值函数不确定性对探索的影响问题,并提出了一种新的算法MMD-QL用于不确定性传播。
  • 关键思路
    MMD-QL使用MMD barycenter来传播不确定性,相比于Wasserstein距离提供了更紧密的概率测量,该算法在tabular环境和Atari游戏中的实验结果表明其在累积奖励方面优于WQL和其他算法。同时,将深度网络引入MMD-QL中创建了MMD-QN,该算法在处理大状态-动作空间方面表现出了较好的效果。
  • 其它亮点
    实验使用了tabular环境和Atari游戏,结果表明MMD-QL在累积奖励方面优于其他算法。同时,MMD-QN在处理大状态-动作空间方面表现出了较好的效果。
  • 相关研究
    与该论文相关的研究包括Wasserstein Q-Learning和其他强化学习算法,例如DQN、A3C等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问