【标题】Assured Learning-enabled Autonomy: A Metacognitive Reinforcement Learning Framework 【作者团队】Aquib Mustafa, Majid Mazouchi, Subramanya Nageshrao, Hamidreza Modares 【研究机构】密歇根州立大学 【发表时间】2021.3.23 【论文链接】原文链接 【推荐理由】本文通过赋予RL算法元认知学习能力,提出了一个有保证的自主控制框架。其根据增益和自适应参考轨迹(超参数)给出了自适应奖励函数,该方法将学习满足规格的奖励函数与学习使奖励最大化的控制策略分开,以学习具有足够好性能的控制方案。

具有预先指定的奖励函数的强化学习(RL)代理不能在不确定系统可能遇到的各种情况下提供有保证的安全性。为了在保证性能,同时满足各种环境下的安全约束,本文通过赋予RL算法元认知学习能力,提出了一个有保证的自主控制框架。具体而言,在元认知决策层对RL代理的奖励函数参数进行调整,以保证RL代理的可行性。也就是说,确保RL代理学习的策略满足信号时序逻辑指定的安全约束,同时获得尽可能多的性能。元认知层在RL代理的作用下监视任何将来可能发生的违反安全性的行为,并采用更高层的贝叶斯RL算法为下层RL代理主动调整奖励功能。为了最大程度地减少高层贝叶斯RL干预,元认知层利用适合度函数作为评估安全性和活动性指标是否满足下层RL代理的成功的度量标准,并且只有在以下情况下高层贝叶斯RL才会干预存在下层RL故障的风险。最后,提供了一个仿真示例来验证该方法的有效性。 图1:元认知自主控制框架

内容中包含的图片若涉及版权问题,请及时与我们联系删除