论文深度研读 | MuZero算法过程详解

前段时间，DeepMind团队提出了MuZero算法，并发表在了Nature上。MuZero是一个通用的游戏AI，它在围棋、象棋、将棋和57款Atari游戏上都超过了人类的表现。而且这个AI事先不需要事先知道规则。本文对这篇论文进行一个深度的解读。

这篇文章的研究内容为：具有规划能力的智能体（agents with planning capabilities）。在此之前，很多研究都是使用基于树的规划方法（Tree-based planning methods），然而在实际业务应用中，动态的控制/仿真环境，往往是复杂且未知的。这篇文章提出的算法MuZero，通过将基于树的搜索（tree-based search）与学习模型（learned model）相结合，可以在不知道环境基本动态的情况下表现的很好。这里的学习模型（learned model），这个模型实际上是在applied iteratively的时候，可以预测出与planning最相关的reward、action-selection policy以及value function。

因此，总结一下，MuZero的研究目的有两个：

一是如何在不知道状态转移规则的情况下使用蒙特卡洛树搜索算法
二是设计一个Model-based的算法在视觉信息丰富的环境(如Atari游戏)上表现优于Model-Free算法。

下面将从以下几个方面对MuZero的原理进行阐述，感兴趣的可以戳链接。

1 算法简介
- 1.1 背景
- 1.2 理解算法思想
2 模型图文讲解
- 2.1 MuZero中模型的组成
- 2.2 MuZero如何与环境进行交互并决策
- 2.3 MuZero如何训练模型
3 MuZero算法详解
- 3.1 价值网络和策略网络
- 3.2 MuZero中的蒙特卡洛树搜索
- 3.3 整体描述
- 3.4 步骤分解
4 总结

内容中包含的图片若涉及版权问题，请及时与我们联系删除

论文深度研读 | MuZero算法过程详解

评论列表

评论