前段时间,DeepMind团队提出了MuZero算法,并发表在了Nature上。MuZero是一个通用的游戏AI,它在围棋、象棋、将棋和57款Atari游戏上都超过了人类的表现。而且这个AI事先不需要事先知道规则。本文对这篇论文进行一个深度的解读。
这篇文章的研究内容为:具有规划能力的智能体(agents with planning capabilities)。在此之前,很多研究都是使用基于树的规划方法(Tree-based planning methods),然而在实际业务应用中,动态的控制/仿真环境,往往是复杂且未知的。这篇文章提出的算法MuZero,通过将基于树的搜索(tree-based search)与学习模型(learned model)相结合,可以在不知道环境基本动态的情况下表现的很好。这里的学习模型(learned model),这个模型实际上是在applied iteratively的时候,可以预测出与planning最相关的reward、action-selection policy以及value function。
因此,总结一下,MuZero的研究目的有两个:
- 一是如何在不知道状态转移规则的情况下使用蒙特卡洛树搜索算法
- 二是设计一个Model-based的算法在视觉信息丰富的环境(如Atari游戏)上表现优于Model-Free算法。
下面将从以下几个方面对MuZero的原理进行阐述,感兴趣的可以戳链接。
- 1 算法简介
- 1.1 背景
- 1.2 理解算法思想
- 2 模型图文讲解
- 2.1 MuZero中模型的组成
- 2.2 MuZero如何与环境进行交互并决策
- 2.3 MuZero如何训练模型
3 MuZero算法详解
- 3.1 价值网络和策略网络
- 3.2 MuZero中的蒙特卡洛树搜索
- 3.3 整体描述
- 3.4 步骤分解
4 总结
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢