【标题】A Risk-Sensitive Approach to Policy Optimization
【作者团队】Jared Markowitz, Ryan W. Gardner, Ashley Llorens
【发表日期】2022.8.19
【论文链接】https://arxiv.org/pdf/2208.09106.pdf
【推荐理由】标准深度强化学习 (DRL) 旨在最大化预期回报,在制定政策时同等考虑收集到的经验。这与人类决策不同,在人类决策中,收益和损失的价值不同,并且对外围结果的考虑更多。它也未能利用通过纳入分配环境来提高安全性和/或性能的机会。本文提出了一种方法,根据全集奖励分布的累积分布函数 (CDF) 来优化风险敏感目标。这种方法允许基于相对质量对结果进行权衡,可用于连续和离散的动作空间,并且可以自然地应用于受约束和不受约束的环境中。本文展示了如何通过抽样计算一类广泛的风险敏感目标计算策略梯度的渐近一致估计,随后结合方差减少和正则化措施以促进有效的策略学习。然后,证明使用适度“悲观”的风险概况,强调智能体表现不佳的场景,来加强探索和持续关注解决缺陷。实验表明,在没有成本限制的情况下,悲观的风险概况可用于降低成本,同时提高总回报积累。在成本限制的情况下,它们被视为在规定的允许成本下比风险中性方法提供更高的积极回报。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢