Regret Analysis of Policy Optimization over Submanifolds for Linearly Constrained Online LQG

简介

最近在在线优化和控制方面的进展为研究在线线性二次调节器（LQR）问题提供了新工具，其中成本矩阵随时间变化对抗性。然而，现有工作的控制器参数化可能不满足实际条件，如由于物理连接而导致的稀疏性。在本文中，我们研究在线线性二次高斯问题，其中施加了给定线性约束的控制器。受[1]最近的工作启发，该工作提出了一个二阶方法，该方法配备了在最优控制问题的背景下自然出现的黎曼度量，用于线性约束的策略优化离线LQR，我们提出了在线乐观的牛顿流形（OONM），它基于对函数序列的一阶和二阶信息的预测提供在线控制器。为了量化所提出的算法，我们利用遗憾的概念，定义为其累积成本与（局部）最小化控制器序列的成本之间的次优性，并提供以最小化器序列的路径长度为基础的遗憾界。还提供了模拟结果以验证OONM的性质。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本文研究在线线性二次高斯问题，其中在控制器上施加了线性约束。

关键思路

提出了一种基于流形上乐观牛顿法的在线控制器，通过预测函数序列的一阶和二阶信息来提供在线控制器。

其它亮点

通过遗憾度量，提供了与最小化控制器序列的路径长度相关的遗憾界。提供了模拟结果来验证OONM的性质。

Regret Analysis of Policy Optimization over Submanifolds for Linearly Constrained Online LQG

提问交流

提问交流