强化学习 (reinforcement learning) 经过了几十年的研发,在一直稳定发展,最近取得了很多傲人的成果,后面会有越来越好的进展。强化学习广泛应用于科学、工程、艺术等领域。
本文简单列举一些强化学习的成功案例,然后对强化学习做简介,介绍两个例子:最短路径和围棋,讨论如何应用强化学习,讨论一些仍然存在的问题和建议,介绍《机器学习》强化学习应用专刊和强化学习应用研讨会,介绍强化学习资料,回顾强化学习简史,最后,简单讨论强化学习的前景。
我们已经见证了强化学习的一些突破,比如深度Q网络 (Deep Q-Network, DQN)应用于雅达利(Atari)游戏、AlphaGo (也包括AlphaGo Zero和AlphaZero)、以及DeepStack/Libratus等。它们每一个都代表了一大类问题,也都会有大量的应用。DQN应用于雅达利游戏代表着单玩家游戏,或更一般性的单智能体 (agent) 控制问题。DQN点燃了这一波研发人员对深度强化学习的热情。AlphaGo代表着双人完美信息零和游戏。AlphaGo在围棋这样超级难的问题上取得了举世瞩目的成绩,是人工智能的一个里程碑。AlphaGo让普罗大众认识到人工智能,尤其是强化学习的实力和魅力。DeepStack/Libratus代表着双人不完美信息零和游戏,是一类很难的问题,也取得了人工智能里程碑级别的成绩。
谷歌Deepmind AlphaStar打败了星际争霸人类高手。Deepmind在一款多人抢旗游戏(Catch the Flag)中达到了人类玩家水平。OpenAI Five打败了人类刀塔(Dota)高手。OpenAI训练了类人机器人手Dactyl, 用于灵活地操纵实物。谷歌人工智能把强化学习用到数据中心制冷这样一个实用系统。DeepMimic模拟人形机器人,掌握高难度的运动技能。强化学习也应用于化学分子逆合成和新药设计。等等。
强化学习也已经被用到产品和服务中。谷歌云的自动机器学习 (AutoML) 提供了自动优化神经元网络结构设计这样的服务。脸书开源了Horizon产品和服务,实现通知传达、视频流比特率优化等功能。谷歌研发了基于强化学习的YouTube视频推荐算法。亚马逊与英特尔合作,发布了一款强化学习实体测试平台AWS DeepRacer. 滴滴出行则把强化学习应用于派单等业务。阿里、京东、快手等把强化学习应用于推荐系统。 深度学习和强化学习分别于2013年和2017年被《麻省理工学院科技评论》评为当年10项突破性技术之一。深度学习已经被广泛应用。强化学习会在实际应用场景中发挥越来越重要的作用。强化学习已经被成功应用于游戏、推荐系统等领域,也可能已经成功应用于量化金融中。目前,强化学习可能还没有被广泛应用于某些场景的产品和服务中;我们也很可能需要对不同情况做不同的分析。不过,如果考虑长期回报,现在很可能是培养、教育、引领强化学习市场的绝佳时机。我们会看到深度学习和强化学习大放异彩。 原文链接
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢