- 简介强化学习在优化离散时间马尔可夫决策过程(MDP)的策略方面表现出色。然而,许多系统在本质上是连续的,使得离散时间MDP成为不精确的建模选择。在许多应用中,例如温室控制或医疗治疗,每个交互(测量或动作切换)都需要手动干预,因此本质上是昂贵的。因此,我们通常更喜欢一种时间自适应的方法,与系统的交互更少。在这项工作中,我们正式规范了一种强化学习框架,即时间自适应控制和感知(TaCoS),通过优化控制策略并预测其应用的持续时间来解决这个挑战。我们的公式化结果导致了一个扩展的MDP,任何标准的强化学习算法都可以解决。我们证明,训练在TaCoS上的最先进的强化学习算法大大减少了与其离散时间对应物的交互量,同时保持相同或更好的性能,并且在离散化频率上表现出鲁棒性。最后,我们提出了OTaCoS,一种适用于我们设置的高效基于模型的算法。我们展示了OTaCoS在具有足够平滑动力学的系统中享有次线性的后悔,并在经验上导致进一步的样本效率提高。
- 图表
- 解决问题论文试图解决连续时间马尔可夫决策过程(MDP)建模不准确的问题,提出了一种时间自适应的强化学习框架TaCoS。
- 关键思路TaCoS优化了控制策略和其应用时间的预测,通过扩展MDP使标准强化学习算法能够解决连续时间的控制问题。
- 其它亮点论文实验表明,相比离散时间的控制方法,基于TaCoS的强化学习算法能够大幅减少与系统的交互次数,同时保持相同或更好的性能,并且在离散化频率上表现出鲁棒性。此外,论文提出了OTaCoS,一种高效的基于模型的算法,对于具有足够平滑动力学的系统,OTaCoS具有次线性的遗憾,并且在样本效率上获得了进一步的提升。
- 相关研究包括连续时间强化学习、控制理论、自适应控制等领域的研究。
沙发等你来抢
去评论
评论
沙发等你来抢