Learning Action-based Representations Using Invariance

2024年03月25日
  • 简介
    使用高维观测进行鲁棒强化学习的代理必须能够在许多外部干扰因素中识别相关状态特征。一种捕捉可控性的表示通过确定影响代理控制的因素来识别这些状态元素。虽然逆动力学和互信息等方法能够捕捉有限数量时间步长的可控性,但捕捉长时间元素仍然是一个具有挑战性的问题。短视可控性可以捕捉代理撞墙前的瞬间,但无法捕捉代理在一定距离内墙壁的控制相关性。为了解决这个问题,我们引入了动作双模拟编码,这是一种受双模拟不变性伪度量启发的方法,它通过递归不变性约束扩展了单步可控性。通过这样做,动作双模拟学习了一种多步可控性度量,平滑地折扣了与控制相关的远程状态特征。我们证明了在无奖励、均匀随机数据上进行动作双模拟预训练可以提高在多个环境中的样本效率,包括一个逼真的3D模拟域Habitat。此外,我们提供了理论分析和定性结果,证明了动作双模拟所捕捉的信息。
  • 图表
  • 解决问题
    本篇论文的问题是如何在高维度的观测中识别出与控制相关的状态特征,特别是在长期任务中。同时,论文试图解决单步控制性和多步控制性之间的平衡问题。
  • 关键思路
    本文提出了一种名为action-bisimulation编码的方法,通过递归不变性约束来扩展单步控制性,从而学习到一个平滑折扣的多步控制性度量。这种方法可以在多种环境中提高样本效率。
  • 其它亮点
    本文的亮点包括:1. 提出了一种新的方法来平衡单步控制性和多步控制性;2. 实验结果表明,action-bisimulation可以提高样本效率;3. 提供了理论分析和定性结果,证明了action-bisimulation所捕捉的信息。此外,文中还介绍了Habitat等数据集和开源代码。
  • 相关研究
    与本文相关的研究包括:1. 逆动力学和互信息方法;2. 与控制相关的表示学习方法;3. 强化学习中的探索技术。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论