Cross Domain Policy Transfer with Effect Cycle-Consistency

2024年03月04日
  • 简介
    使用深度强化学习方法从头开始训练机器人策略可能由于样本效率低而代价高昂。为了解决这个挑战,将在源域中训练的策略转移到目标域成为一种有吸引力的范例。以往的研究通常关注状态和动作空间相似但在其他方面不同的领域。本文的主要焦点是不同状态和动作空间的领域,这具有更广泛的实际应用,例如将策略从机器人A转移到机器人B。与以往依赖成对数据的方法不同,我们提出了一种新的方法,使用非配对数据学习跨领域的状态和动作空间之间的映射函数。我们提出了效果循环一致性,通过对称优化结构来对齐两个领域之间转换的效果,从而学习这些映射函数。一旦学习了映射函数,我们就可以无缝地将策略从源域转移到目标域。我们的方法已在三个运动任务和两个机器人操作任务上进行了测试。实证结果表明,我们的方法可以显著减少对齐误差,并与最先进的方法相比取得更好的性能。
  • 图表
  • 解决问题
    研究如何在不同状态和动作空间的机器人领域中,使用未配对数据进行策略迁移,以解决深度强化学习中样本效率低下的问题。
  • 关键思路
    使用无配对数据学习域之间的状态和动作空间之间的映射函数,通过对称优化结构实现跨域对齐,从而实现策略迁移。
  • 其它亮点
    论文提出的方法在三个运动任务和两个机器人操作任务上进行了测试,结果表明该方法可以显著减少对齐误差,并相对于现有方法实现更好的性能。论文使用的数据集和开源代码值得关注。
  • 相关研究
    最近的相关研究包括《Unsupervised Domain Adaptation for Reinforcement Learning》和《Learning to Transfer: Unsupervised Domain Translation for Reinforcement Learning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论