【标题】Sparse online maximum entropy inverse reinforcement learning via proximal optimization and truncated gradient
【作者团队】Li Song, Dazi Li, Xin Xu
【发表日期】2022.7.16
【论文链接】https://www.sciencedirect.com/science/article/pii/S0950705122007249#!
【推荐理由】最大熵(ME)算法已被广泛研究用于学习奖励和获得逆强化学习(IRL)问题的最佳策略。然而,由于计算复杂、过度拟合和低收敛性等问题,避免使用最大熵 IRL (ME IRL) 算法的趋势激发了旨在开发改进性能的新型 ME IRL 算法的研究。本文提出了一种基于近端优化的新的最大熵 IRL。将具有良好稀疏解的跟随近端正常化的领导者(FTPRL)方法作为近端优化来提高ME IRL算法的泛化性能,从而产生ME-FTPRL IRL。该算法借助于 l1/l22正则化和自适应每状态学习速率,可以选择特征,校正奖励权重的更新方向,降低模型复杂度,避免过度拟合,加快收敛速度。在每次迭代期间,对 ME-FTPRL IRL应用截断梯度(TG)方法来更新奖励权重。这避免了 FTPRL 方法的浮点问题。然后使用Q学习算法来获得具有学习奖励的最佳策略。随后,基于正则化、TG方法和遗憾界证明了ME-TTPRL IRL的稀疏性和收敛性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢