Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients

2024年06月21日
  • 简介
    本文探讨了在顺序决策过程中缓解灾难性风险(即频率非常低但严重程度非常高的风险)的问题。由于累积成本(负回报)分布的极端尾部缺乏观测数据,这个问题尤其具有挑战性。我们开发了一种名为POTPG的策略梯度算法,它基于极值理论的尾部风险近似。数值实验突出了我们的方法在依赖经验分布的常见基准上的表现优异。本文还介绍了一个应用于金融风险管理的例子,更具体地说是动态对冲金融期权。
  • 图表
  • 解决问题
    论文探讨如何在序列决策过程中减少灾难性风险的影响。这种风险具有极低的频率但极高的严重性。
  • 关键思路
    论文提出了一种基于极值理论的尾部风险近似的策略梯度算法POTPG,以解决极端情况下数据稀缺的问题。
  • 其它亮点
    论文通过实验表明,POTPG方法在金融风险管理中的动态对冲等问题上表现优于常见的基于经验分布的基准方法。
  • 相关研究
    在金融风险管理领域,还有其他相关研究,如《Financial Risk Management with Machine Learning》和《Deep Hedging》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论