Explainable Post hoc Portfolio Management Financial Policy of a Deep Reinforcement Learning agent

2024年07月19日
  • 简介
    金融投资组合管理投资政策是由现代投资组合理论技术(如马科维茨模型)定量计算的,但这些技术依赖于一些在高波动市场中无法得到支持的假设。因此,量化研究人员正在寻找替代模型来解决这个问题。具体来说,投资组合管理是一个最近已成功解决的问题,采用了深度强化学习(DRL)方法。特别地,DRL算法通过估计代理在模拟器中给定任何金融状态时执行的每个动作的预期奖励分布来训练代理。然而,这些方法依赖于深度神经网络模型来表示这种分布,虽然它们是通用逼近器模型,但无法解释其行为,因为其由一组不可解释的参数给出。关键是,金融投资政策要求预测是可解释的,因此DRL代理不适合遵循特定政策或解释其行动。在这项工作中,我们开发了一种新的可解释深度强化学习(XDRL)方法,将近端策略优化(PPO)与特征重要性、SHAP和LIME等模型无关的可解释技术相结合,以增强预测时的透明度。通过执行我们的方法,我们可以在预测时解释代理的行动,以评估它们是否符合投资政策的要求或评估遵循代理建议的风险。据我们所知,我们提出的方法是首个解释DRL代理金融投资组合管理政策的后续方法。我们通过成功识别影响投资决策的关键特征来实证说明我们的方法,这表明我们能够解释代理在预测时的行动。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决在高波动性市场中,现代投资组合理论技术如马科维茨模型所依赖的假设不被高波动性市场数据所支持的问题。因此,量化研究人员正在寻找替代模型来解决这个问题。具体来说,DRL算法通过在模拟器中估计代理在任何金融状态下执行的每个操作的预期奖励分布来训练代理。然而,这些方法依赖于深度神经网络模型来表示这样的分布,尽管它们是通用的逼近模型,但它们不能解释其行为,由一组不可解释的参数给出。这使得DRL代理无法适合遵循特定策略或解释其行动。
  • 关键思路
    论文提出了一种新颖的可解释深度强化学习(XDRL)方法,将PPO与特征重要性、SHAP和LIME的模型不可知可解释技术相结合,以在预测时间增强透明度。
  • 其它亮点
    论文提出的XDRL方法是第一个可解释的后续投资组合管理金融策略的DRL代理。通过执行该方法,我们可以在预测时间解释代理的行动,以评估它们是否遵循投资策略的要求或评估遵循代理建议的风险。实验结果成功地识别了影响投资决策的关键特征,证明了解释代理行动的能力。
  • 相关研究
    近期在这个领域中的相关研究包括:'Portfolio Management with Deep Reinforcement Learning','Deep Reinforcement Learning with a Natural Language Action Space','Interpretable Deep Reinforcement Learning for Portfolio Management'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问