【标题】STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning

【作者团队】Nikhil Kumar Singh, Indranil Saha

【发表日期】2022.12.2

【论文链接】https://arxiv.org/pdf/2212.01022.pdf

【推荐理由】深度强化学习 (DRL) 有可能用于为具有未知动态的各种复杂系统合成反馈控制器(智能体)。这些系统有望满足使用时序逻辑最好地捕获的各种安全性和活性属性。在 RL 中,奖励函数在指定这些智能体的期望行为方面起着至关重要的作用。然而,为 RL 智能体设计奖励函数以满足复杂时序逻辑规范的问题在文献中受到的关注有限。为了解决这个问题,本文提供了一种通过使用信号时间逻辑 (STL) 的定量语义来实时生成奖励的系统方法,STL 是一种广泛使用的时间逻辑,用于指定网络物理系统的行为。本研究为具有几个理想属性的 STL 提出了一种新的定量语义,使其适合奖励生成。本文在几个复杂的连续控制基准上评估此基于 STL 的强化学习机制,实验结果表明新语义最适合通过强化学习为复杂的连续动力系统合成反馈控制器。