Regret Analysis of Policy Optimization over Submanifolds for Linearly Constrained Online LQG

2024年03月13日
  • 简介
    最近在在线优化和控制方面的进展为研究在线线性二次调节器(LQR)问题提供了新工具,其中成本矩阵随时间变化对抗性。然而,现有工作的控制器参数化可能不满足实际条件,如由于物理连接而导致的稀疏性。在本文中,我们研究在线线性二次高斯问题,其中施加了给定线性约束的控制器。受[1]最近的工作启发,该工作提出了一个二阶方法,该方法配备了在最优控制问题的背景下自然出现的黎曼度量,用于线性约束的策略优化离线LQR,我们提出了在线乐观的牛顿流形(OONM),它基于对函数序列的一阶和二阶信息的预测提供在线控制器。为了量化所提出的算法,我们利用遗憾的概念,定义为其累积成本与(局部)最小化控制器序列的成本之间的次优性,并提供以最小化器序列的路径长度为基础的遗憾界。还提供了模拟结果以验证OONM的性质。
  • 作者讲解
  • 图表
  • 解决问题
    本文研究在线线性二次高斯问题,其中在控制器上施加了线性约束。
  • 关键思路
    提出了一种基于流形上乐观牛顿法的在线控制器,通过预测函数序列的一阶和二阶信息来提供在线控制器。
  • 其它亮点
    通过遗憾度量,提供了与最小化控制器序列的路径长度相关的遗憾界。提供了模拟结果来验证OONM的性质。
  • 相关研究
    最近的相关研究包括在线优化和控制的新进展,以及在线线性二次调节器问题的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问