强化学习应用简述

强化学习 (reinforcement learning) 经过了几十年的研发，在一直稳定发展，最近取得了很多傲人的成果，后面会有越来越好的进展。强化学习广泛应用于科学、工程、艺术等领域。

本文简单列举一些强化学习的成功案例，然后对强化学习做简介，介绍两个例子：最短路径和围棋，讨论如何应用强化学习，讨论一些仍然存在的问题和建议，介绍《机器学习》强化学习应用专刊和强化学习应用研讨会，介绍强化学习资料，回顾强化学习简史，最后，简单讨论强化学习的前景。

我们已经见证了强化学习的一些突破，比如深度Q网络 (Deep Q-Network, DQN)应用于雅达利(Atari)游戏、AlphaGo (也包括AlphaGo Zero和AlphaZero)、以及DeepStack/Libratus等。它们每一个都代表了一大类问题，也都会有大量的应用。DQN应用于雅达利游戏代表着单玩家游戏，或更一般性的单智能体 (agent) 控制问题。DQN点燃了这一波研发人员对深度强化学习的热情。AlphaGo代表着双人完美信息零和游戏。AlphaGo在围棋这样超级难的问题上取得了举世瞩目的成绩，是人工智能的一个里程碑。AlphaGo让普罗大众认识到人工智能，尤其是强化学习的实力和魅力。DeepStack/Libratus代表着双人不完美信息零和游戏，是一类很难的问题，也取得了人工智能里程碑级别的成绩。

谷歌Deepmind AlphaStar打败了星际争霸人类高手。Deepmind在一款多人抢旗游戏(Catch the Flag)中达到了人类玩家水平。OpenAI Five打败了人类刀塔(Dota)高手。OpenAI训练了类人机器人手Dactyl, 用于灵活地操纵实物。谷歌人工智能把强化学习用到数据中心制冷这样一个实用系统。DeepMimic模拟人形机器人，掌握高难度的运动技能。强化学习也应用于化学分子逆合成和新药设计。等等。

强化学习也已经被用到产品和服务中。谷歌云的自动机器学习 (AutoML) 提供了自动优化神经元网络结构设计这样的服务。脸书开源了Horizon产品和服务，实现通知传达、视频流比特率优化等功能。谷歌研发了基于强化学习的YouTube视频推荐算法。亚马逊与英特尔合作，发布了一款强化学习实体测试平台AWS DeepRacer. 滴滴出行则把强化学习应用于派单等业务。阿里、京东、快手等把强化学习应用于推荐系统。深度学习和强化学习分别于2013年和2017年被《麻省理工学院科技评论》评为当年10项突破性技术之一。深度学习已经被广泛应用。强化学习会在实际应用场景中发挥越来越重要的作用。强化学习已经被成功应用于游戏、推荐系统等领域，也可能已经成功应用于量化金融中。目前，强化学习可能还没有被广泛应用于某些场景的产品和服务中；我们也很可能需要对不同情况做不同的分析。不过，如果考虑长期回报，现在很可能是培养、教育、引领强化学习市场的绝佳时机。我们会看到深度学习和强化学习大放异彩。原文链接

内容中包含的图片若涉及版权问题，请及时与我们联系删除