【标题】Risk-averse policy optimization via risk-neutral policy optimization

【作者团队】Lorenzo Bisi, Davide Santambrogio, Federico Sandrelli, Andrea Tirinzoni

【发表日期】2022.7.14

【论文链接】https://www.sciencedirect.com/science/article/pii/S0004370222001059#!

【推荐理由】控制风险是许多关键现实世界领域的主要目标,包括金融和医疗保健。有关风险规避强化学习 (RL) 的文献主要集中在为特定风险度量设计临时算法。因此,这些算法中的大多数都不容易推广到它们所设计的度量之外。此外,通常不清楚是否可以扩展最先进的风险中性 RL 算法以降低风险。在本文中,提出了一个单一框架来优化一些最流行的风险度量,包括条件风险价值、效用函数和均值方差。利用最近关于状态增强的理论结果,本文改变了决策过程,使得在原始环境中优化所选择的风险度量等同于在转换后的环境中优化预期成本。然后,本文提出了一个简单的风险敏感元算法,它可以转换从环境中收集的轨迹,并将这些轨迹输入到任何风险中性的策略优化方法中。最后,本文提供了广泛的实验,展示了此方法相对于不同领域中现有的 ad-hoc 方法的好处,包括 Mujoco 机器人套件和真实世界的交易数据集。

内容中包含的图片若涉及版权问题,请及时与我们联系删除