Deep Gaussian Covariance Network with Trajectory Sampling for Data-Efficient Policy Search

简介

概率世界模型通过利用其认知不确定性来指导策略，提高探索能力并获取新样本，从而增加了模型驱动强化学习（MBRL）的数据效率。此外，概率方法中的不确定性感知学习过程比不考虑不确定性的解决方案更容易产生鲁棒性策略，对噪声观测数据的敏感性也更小。我们提出将轨迹采样和深度高斯协方差网络（DGCN）相结合，以在最优控制环境中实现MBRL问题的高效解决方案。我们使用三种不同的概率世界模型，高斯过程、贝叶斯神经网络和DGCN，将轨迹采样与基于密度的不确定性传播方法进行比较。我们在四个不同的著名测试环境中提供实证证据，表明我们的方法提高了样本效率，超过了其他不确定性传播方法和概率模型的组合。在测试过程中，我们特别强调了学习策略对于噪声初始状态的鲁棒性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高模型驱动强化学习的数据效率和鲁棒性
关键思路

结合轨迹采样和深度高斯协方差网络（DGCN）的方法，用于解决最优控制问题中的模型驱动强化学习（MBRL）问题，通过不同的概率世界模型和基于密度的不确定性传播方法进行比较，证明该方法提高了样本效率和鲁棒性。
其它亮点

论文提出的方法在四个不同的测试环境中得到了实证结果，并且相比其他方法，该方法可以提高样本效率和鲁棒性。
相关研究

相关研究包括：1. Probabilistic Model-Based Reinforcement Learning Using Gaussian Processes. 2. Deep Reinforcement Learning with Bayesian Neural Networks for Continuous Control.

Deep Gaussian Covariance Network with Trajectory Sampling for Data-Efficient Policy Search

提问交流

提问交流