- 简介在无监督强化学习中,最小化熵和最大化熵(好奇心)目标已被证明在不同环境中都很有效,具体取决于环境的自然熵水平。然而,单独使用这两种方法都不能使智能体在不同环境中一致地学习到智能行为。为了寻找一种基于熵的方法,可以在任何环境中鼓励出现新的行为,我们提出了一种代理,可以根据熵条件在线自适应其目标,并将其作为多臂赌博机问题来解决。我们为赌博机设计了一种新的内在反馈信号,捕捉代理控制环境熵的能力。我们证明这种代理可以学会控制熵,在高熵和低熵环境中展现出新的行为,并且可以在基准任务中学习到有技能的行为。我们的项目页面上可以找到训练代理的视频和总结结果。
- 图表
- 解决问题提出一种基于熵的方法,使智能体能够在任何环境中展现出自适应的行为
- 关键思路通过将选择适当的熵最小化或最大化作为多臂赌博机问题,并设计一种新的内在反馈信号来捕捉智能体控制环境熵的能力,从而实现在线调整目标函数的目的
- 其它亮点论文展示了这种方法可以在高熵和低熵环境中学习控制熵并展现出自适应行为,同时还在基准任务中学习到了有技巧的行为,研究者提供了项目页面展示训练后的智能体视频和总结结果,并公开了代码
- 与当前领域的其他基于熵的方法以及多臂赌博机问题相关的研究
沙发等你来抢
去评论
评论
沙发等你来抢