- 简介风险敏感的强化学习(RL)对于许多高风险应用程序的可靠性表现至关重要。虽然大多数RL方法旨在学习随机累积成本的点估计,但分布式RL(DRL)旨在估计其整个分布。该分布提供有关成本的所有必要信息,并为处理风险敏感环境中的各种风险度量提供了统一的框架。然而,为风险敏感的DRL开发策略梯度方法本质上更加复杂,因为它涉及到找到概率度量的梯度。本文介绍了一种带有一般一致风险度量的风险敏感DRL的策略梯度方法,其中我们提供了概率度量梯度的解析形式。我们进一步证明了所提出的算法在温和光滑性假设下的局部收敛性。为了实际应用,我们还设计了一种基于分类分布式策略评估和基于轨迹的梯度估计的分类分布式策略梯度算法(CDPG)。通过在随机悬崖行走环境上进行实验,我们说明了在DRL中考虑风险敏感环境的好处。
- 图表
- 解决问题本文旨在解决风险敏感强化学习中的问题,即如何有效地估计整个成本分布,以便处理不同的风险度量。
- 关键思路本文提出了一种基于一般相干风险度量的风险敏感分布式强化学习的策略梯度方法,并提供了概率度量梯度的解析形式。
- 其它亮点本文设计了一个基于分类分布策略评估和基于轨迹的梯度估计的分类分布式策略梯度算法,称为CDPG,并在随机悬崖环境中进行了实验,证明了在风险敏感设置下进行分布式强化学习的优势。
- 最近的相关研究包括《Distributional Reinforcement Learning with Quantile Regression》、《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》等。
沙发等你来抢
去评论
评论
沙发等你来抢