【论文标题】SMiRL:在不稳定的环境中意外最小化强化学习 SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments
【作者团队】Glen Berseth, Daniel Geng, Coline Devin
【论文链接】https://arxiv.org/pdf/1912.05510.pdf
【推荐理由】每个生物体都在与破坏性的环境力量作斗争,以开拓和维持一个有序的生态位。本文提出,这种实现和维护秩序的斗争可能为人工智能中有用行为的出现提供一个原则。本文将这个想法形式化为一种无监督的强化学习方法,称为意外最小化强化学习(SMiRL)。 SMiRL 在学习密度模型以评估刺激的意外性和改进策略以寻求更可预测的刺激之间切换。 该策略寻求稳定和可重复的情况,以抵消环境的主要熵源。 这可能包括避免其他敌对智能体,或为双足机器人在面对干扰力时找到稳定、平衡的姿势。本文证明,意外最小化智能体能够在没有任何特定任务奖励监督的情况下成功玩俄罗斯方块、毁灭战士、控制人形机器人避免摔倒、在迷宫中导航逃离敌人。本文进一步证明SMiRL可以与标准任务奖励一起使用,以加速奖励驱动学习。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢