- 简介基于模型的强化学习是控制未知系统的有效方法。它基于控制领域熟知的长期流程,即对环境进行实验以收集数据集,使用得到的数据集识别系统模型,最后使用识别出的模型进行控制综合。由于与系统的交互可能成本高且耗时,因此有针对性的探索对于用最少的实验开发有效的控制导向模型至关重要。受到这一挑战的启发,最近的研究开始研究有限样本数据要求和样本高效算法,以解决基于模型的强化学习中的最优探索问题。然而,现有的理论和算法仅限于参数线性的模型类。我们的工作则专注于具有非线性参数依赖关系的模型,并提出了第一个适用于一般非线性动力学类的主动学习算法的有限样本分析。在某些情况下,我们算法的超额控制成本达到了最优速率,最多只有对数因子。我们在仿真中验证了我们的方法,展示了用于控制非线性系统的主动、控制导向探索的优势。
-
- 图表
- 解决问题论文旨在解决模型基础强化学习中,对于非线性参数依赖模型的有限采样数据要求和样本有效算法的问题。这是否是一个新问题?
- 关键思路论文提出了一种适用于一般类非线性动力学的主动学习算法,并给出了其第一个有限样本分析。在某些情况下,该算法的过度控制成本达到了最优速率,最多只有对数因子。相比现有的研究,该论文的思路有何新意?
- 其它亮点该论文的亮点包括:通过模拟验证了主动控制导向探索用于控制非线性系统的优势;针对非线性参数依赖模型提出了一种有限采样数据要求和样本有效算法;在某些情况下,该算法的过度控制成本达到了最优速率,最多只有对数因子。
- 近期的相关研究包括:针对线性参数依赖模型的有限样本数据要求和样本有效算法的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流