- 简介强化学习(RL)算法的两个愿景是能够从相对较少的经验中学习,以及能够学习适用于一系列问题规范的策略。在分解状态空间中,实现这两个目标的一种方法是学习状态抽象,它仅保留了学习手头任务所需的必要变量。本文介绍了因果双模建模(CBM),这是一种方法,它学习每个任务中动态和奖励函数中的因果关系,以得出一个最小的、任务特定的抽象。CBM利用和改进了隐式建模,训练了一个高保真的因果动态模型,可以在同一环境中重复使用。在操作环境和Deepmind控制套件上的实证验证表明,CBM的学习隐式动态模型比显式动态模型更准确地识别了潜在的因果关系和状态抽象。此外,得出的状态抽象允许任务学习者实现接近Oracle级别的样本效率,并在所有任务上优于基线。
- 图表
- 解决问题本文试图解决强化学习算法在学习效率和泛化能力方面的问题,提出了一种基于因果双模型(CBM)的方法,通过学习每个任务的因果关系来导出最小的任务特定抽象,以提高学习效率和泛化能力。
- 关键思路CBM方法利用隐式建模训练高保真度的因果动态模型,该模型可以用于同一环境中的所有任务。通过学习任务的因果关系,导出最小的任务特定抽象,提高了学习效率和泛化能力。
- 其它亮点本文的实验使用了操作环境和Deepmind Control Suite数据集进行验证,结果表明CBM的隐式动态模型可以更准确地识别潜在的因果关系和状态抽象。此外,通过导出的状态抽象,任务学习者可以实现接近oracle级别的样本效率,并在所有任务上优于基线。本文的方法还可以应用于其他领域。
- 在最近的相关研究中,也有一些关于利用因果关系来提高强化学习效率和泛化能力的研究,例如Causal Reinforcement Learning,但与CBM方法不同的是,它们通常需要显式地指定因果关系和抽象。
沙发等你来抢
去评论
评论
沙发等你来抢