- 简介本文研究了控制跳扩散模型的连续时间强化学习,通过特征化q函数(Q函数的连续时间对应物)和在Tsallis熵正则化下的q学习算法。与传统的Shannon熵相反,Tsallis熵的一般形式使得最优策略不一定是Gibbs分布,其中一些拉格朗日乘子和KKT乘子自然地出现在某些约束条件下,以确保学得的策略是概率分布。因此,最优策略与q函数之间的关系也涉及拉格朗日乘子。为此,我们建立了在Tsallis熵下q函数的鞅特征,并设计了两种q学习算法,具体取决于是否能够明确导出拉格朗日乘子。在后一种情况下,我们需要考虑q函数和策略的不同参数化,并交替更新它们。最后,我们检验了两个金融应用,即最优投资组合清算问题和非LQ控制问题。有趣的是,在Tsallis熵正则化下,最优策略可以被明确地表征为集中于某个紧支撑上的分布。我们的q学习算法在两个示例中都表现出了令人满意的性能。
- 图表
- 解决问题本论文研究了连续时间强化学习在受控跳跃扩散模型中的应用,尤其是在Tsallis熵正则化下的q函数和q学习算法。
- 关键思路本论文提出了Tsallis熵正则化下q函数的鞅特性,并设计了两种q学习算法,其中一种需要考虑Lagrange乘子的参数化。
- 其它亮点本文的亮点包括提出了Tsallis熵正则化下q函数的鞅特性,设计了两种q学习算法,以及在金融领域的两个应用(最优组合清算问题和非LQ控制问题)。研究表明,在Tsallis熵正则化下,最优策略可以被明确地表征为分布集中在某个紧凑支持上。
- 最近在这个领域中,还有一些相关的研究,如“Deep Reinforcement Learning for Continuous Control with Discrete Adjoint Method”和“Continuous-Time Reinforcement Learning with Advantage Actor-Critic”等。
沙发等你来抢
去评论
评论
沙发等你来抢