【标题】Inverse Reinforcement Learning from Diverse Third-Person Videos via Graph Abstraction

【作者团队】Sateesh Kumar, Jonathan Zamora, Nicklas Hansen

【发表日期】2022.7.28

【论文链接】https://arxiv.org/pdf/2207.14299.pdf

【推荐理由】来自第三人称视频的逆向强化学习 (IRL) 研究表明,在消除机器人任务手动奖励设计的需求方面取得了令人鼓舞的结果。 然而,大多数先前的作品仍然受到相对有限的视频领域的训练的限制。 在本文中,作者认为第三人称 IRL 的真正潜力在于增加视频的多样性以实现更好的缩放。 为了从不同的视频中学习奖励函数,本文建议对视频进行图抽象,然后在图空间中进行时间匹配以衡量任务进度。 本文提出,可以通过形成图的实体交互来描述任务,这种图抽象可以帮助去除纹理等不相关信息,从而产生更强大的奖励函数。 本文评估了提出的方法 GraphIRL,在 X-MAGICAL 中的交叉体现学习和从人类演示中学习以进行真实机器人操作。 与以前的方法相比,本文的方法展示了对各种视频演示的鲁棒性的显着改进,甚至在真正的机器人推动任务上取得了比手动奖励设计更好的结果。