华为|连续学习，离散行动：混合行动空间强化学习以实现最佳执行

【标题】Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement Learning For Optimal Execution

【作者团队】Feiyang Pan, Tongzhe Zhang, Ling Luo

【发表日期】2022.7.22

【论文链接】https://arxiv.org/pdf/2207.11152.pdf

【推荐理由】最优执行是算法交易中用于节省成本的顺序决策问题。研究发现，强化学习（RL）可以帮助决定订单拆分的大小。然而，还有一个问题尚未解决：如何以适当的限价下达限价订单？关键挑战在于动作空间的“连续-离散二元性”。一方面，使用价格百分比变化的连续动作空间更适合于泛化。另一方面，由于分时大小的存在，交易者最终需要离散地选择限价，这需要对具有不同特征（例如流动性和价格范围）的每只股票进行专门化。因此，需要连续控制进行泛化，离散控制进行特化。为此，本文提出了一种混合强化学习方法，以结合两者的优点。作者首先使用连续控制智能体来确定动作子集的范围，然后部署细粒度智能体来选择特定的限价。大量实验表明，与现有强化学习算法相比，本文的方法具有更高的样本效率和更好的训练稳定性，并且显著优于以前基于学习的订单执行方法。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

华为|连续学习，离散行动：混合行动空间强化学习以实现最佳执行

评论