- 简介从专家演示中学习以灵活地编程具有复杂行为的自主系统或预测代理行为是一种强大的工具,特别是在协作控制环境中。解决这个问题的常见方法是逆强化学习(IRL),其中被观察的代理,例如人类演示者,被假设根据反映其意图并通知其控制动作的内在成本函数的优化行为。虽然该框架很有表现力,但计算成本很高,通常缺乏收敛保证。因此,我们提出了一种新颖的、稳定认证的IRL方法,通过重新制定成本函数推理问题来学习控制李亚普诺夫函数(CLF)。通过利用相关控制策略的闭式表达式,我们能够通过观察诱导动力学的吸引子景观来高效地搜索CLF空间。为了构建反向最优CLF,我们使用了一个平方和的方法,并制定了一个凸优化问题。我们对CLF提供的最优性属性进行了理论分析,并使用模拟和真实数据评估了我们的方法。
- 图表
- 解决问题本文旨在解决逆强化学习(IRL)中的计算效率和收敛性问题。IRL是一种通过观察代理人行为来学习其内在成本函数的方法,但通常计算复杂度高且缺乏收敛保证。
- 关键思路本文提出了一种基于学习控制李雅普诺夫函数(CLF)的IRL方法,通过观察诱导动力学的吸引子景观来高效地搜索CLF空间。通过使用Sum of Squares并制定凸优化问题来构建逆最优CLF。
- 其它亮点本文提出的方法具有计算效率和收敛保证,并在模拟和真实世界数据上进行了评估。实验结果表明,该方法可以成功地学习到复杂的行为,并且在计算效率上具有优势。此外,本文还提供了理论分析和开源代码。
- 近期的相关研究包括:'A Survey of Inverse Reinforcement Learning: Challenges, Methods, and Progress','Inverse reinforcement learning in partially observable environments'等。
沙发等你来抢
去评论
评论
沙发等你来抢