Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients

简介

本文探讨了在顺序决策过程中缓解灾难性风险（即频率非常低但严重程度非常高的风险）的问题。由于在累积成本（负回报）分布的极端尾部观察数据非常稀少，因此这个问题尤其具有挑战性。本文开发了一种名为POTPG的策略梯度算法，该算法基于极值理论导出的尾部风险的近似值。数值实验突出了我们的方法在依赖经验分布的常见基准测试中的优越表现。本文还介绍了一个应用于金融风险管理的例子，更具体地说是动态对冲金融期权。
图表
解决问题

论文旨在解决在序列决策过程中缓解灾难性风险的问题，这种风险具有非常低的频率但非常高的严重性。
关键思路

论文提出了一种基于极值理论的尾部风险近似的策略梯度算法POTPG，以应对极端情况下的决策问题。
其它亮点

论文通过实验表明，相比于常规基于经验分布的算法，POTPG方法在性能上表现更好。此外，论文还提供了一个金融风险管理的应用实例，即对金融期权的动态对冲。
相关研究

近期的相关研究包括：1. 'A Survey of Deep Learning for Scientific Discovery'；2. 'Reinforcement learning for trading'；3. 'Learning to Optimize'。