- 简介概率世界模型通过利用其认知不确定性来指导策略,提高探索能力并获取新样本,从而增加了模型驱动强化学习(MBRL)的数据效率。此外,概率方法中的不确定性感知学习过程比不考虑不确定性的解决方案更容易产生鲁棒性策略,对噪声观测数据的敏感性也更小。我们提出将轨迹采样和深度高斯协方差网络(DGCN)相结合,以在最优控制环境中实现MBRL问题的高效解决方案。我们使用三种不同的概率世界模型,高斯过程、贝叶斯神经网络和DGCN,将轨迹采样与基于密度的不确定性传播方法进行比较。我们在四个不同的著名测试环境中提供实证证据,表明我们的方法提高了样本效率,超过了其他不确定性传播方法和概率模型的组合。在测试过程中,我们特别强调了学习策略对于噪声初始状态的鲁棒性。
-
- 图表
- 解决问题提高模型驱动强化学习的数据效率和鲁棒性
- 关键思路结合轨迹采样和深度高斯协方差网络(DGCN)的方法,用于解决最优控制问题中的模型驱动强化学习(MBRL)问题,通过不同的概率世界模型和基于密度的不确定性传播方法进行比较,证明该方法提高了样本效率和鲁棒性。
- 其它亮点论文提出的方法在四个不同的测试环境中得到了实证结果,并且相比其他方法,该方法可以提高样本效率和鲁棒性。
- 相关研究包括:1. Probabilistic Model-Based Reinforcement Learning Using Gaussian Processes. 2. Deep Reinforcement Learning with Bayesian Neural Networks for Continuous Control.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流