- 简介在线模仿学习方法面临的挑战是在线探索空间广泛而专家轨迹有限,这阻碍了由于任务感知奖励估计不准确而导致的有效探索。受到认知神经科学发现任务分解可以促进高效学习的启发,我们假设代理可以通过将目标任务分解为“做什么”和“如何做”的目标,来估计精确的任务感知模仿奖励,以便进行高效的在线探索。在这项工作中,我们介绍了混合关键状态引导的在线模仿(KOI)学习方法,该方法利用语义和运动关键状态的集成作为任务感知奖励估计的指导。最初,我们利用视觉语言模型将专家轨迹分割成语义关键状态,表示“做什么”的目标。在语义关键状态之间的间隔中,使用光流来捕捉运动关键状态,以了解“如何做”的过程。通过充分了解语义和运动关键状态,我们改进了轨迹匹配奖励计算,鼓励任务感知探索,以实现高效的在线模仿学习。我们的实验结果证明,我们的方法在Meta-World和LIBERO环境中更具样本效率。我们还进行了真实世界的机器人操作实验,验证了我们方法的有效性,展示了我们KOI方法的实际适用性。
- 图表
- 解决问题本文试图解决Online Imitation Learning方法中由于有限的专家轨迹和广泛的在线探索空间之间的差距导致的任务感知奖励估计不准确的问题。
- 关键思路本文提出了一种新的混合关键状态引导的在线模仿学习方法,通过将任务分解为“要做什么”和“如何做”的目标,利用语义和动作关键状态进行任务感知奖励估计,以鼓励任务感知的在线探索。
- 其它亮点本文的实验结果表明,在Meta-World和LIBERO环境中,我们的方法更加高效。同时,作者还进行了真实世界的机器人操作实验,验证了该方法的实用性。
- 最近的相关研究包括:End-to-End Robotic Reinforcement Learning without Reward Engineering,Hierarchical Reinforcement Learning for Robotic Manipulation,Learning Dexterous In-Hand Manipulation。
沙发等你来抢
去评论
评论
沙发等你来抢