Uncertainty-aware Distributional Offline Reinforcement Learning

2024年03月26日
  • 简介
    离线强化学习(RL)面临独特的挑战,因为它仅依赖于观察数据。在这种情况下的一个核心问题是通过量化与各种行动和环境随机性相关的不确定性来确保学习到的策略的安全性。传统方法主要强调通过学习风险规避策略来减轻认知不确定性,往往忽视环境随机性。在本研究中,我们提出了一种考虑不确定性的分布式离线RL方法,以同时解决认知不确定性和环境随机性。我们提出了一种无模型离线RL算法,能够学习风险规避策略并表征折扣累积奖励的整个分布,而不仅仅是最大化累积折扣回报的期望值。我们的方法通过在风险敏感和风险中立基准测试中进行全面实验评估,展示了其优越的性能。
  • 图表
  • 解决问题
    提出离线强化学习中的不确定性问题,如何同时解决认知不确定性和环境随机性?
  • 关键思路
    提出一种基于分布的离线强化学习算法,同时解决认知不确定性和环境随机性,能够学习风险规避策略并对折扣累积奖励的整个分布进行建模
  • 其它亮点
    论文通过实验验证了该算法在风险敏感和风险中性基准测试中的优越性,同时提供了开源代码
  • 相关研究
    最近的相关研究包括:'Risk-Sensitive Inverse Reinforcement Learning via Trace Norm Regularization'、'Distributional Reinforcement Learning with Quantile Regression'等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论