- 简介离线强化学习(RL)面临独特的挑战,因为它仅依赖于观察数据。在这种情况下的一个核心问题是通过量化与各种行动和环境随机性相关的不确定性来确保学习到的策略的安全性。传统方法主要强调通过学习风险规避策略来减轻认知不确定性,往往忽视环境随机性。在本研究中,我们提出了一种考虑不确定性的分布式离线RL方法,以同时解决认知不确定性和环境随机性。我们提出了一种无模型离线RL算法,能够学习风险规避策略并表征折扣累积奖励的整个分布,而不仅仅是最大化累积折扣回报的期望值。我们的方法通过在风险敏感和风险中立基准测试中进行全面实验评估,展示了其优越的性能。
- 图表
- 解决问题提出离线强化学习中的不确定性问题,如何同时解决认知不确定性和环境随机性?
- 关键思路提出一种基于分布的离线强化学习算法,同时解决认知不确定性和环境随机性,能够学习风险规避策略并对折扣累积奖励的整个分布进行建模
- 其它亮点论文通过实验验证了该算法在风险敏感和风险中性基准测试中的优越性,同时提供了开源代码
- 最近的相关研究包括:'Risk-Sensitive Inverse Reinforcement Learning via Trace Norm Regularization'、'Distributional Reinforcement Learning with Quantile Regression'等
沙发等你来抢
去评论
评论
沙发等你来抢