详解DQN训练技巧！带你回到深度强化学习「梦开始的地方」

过去十多年里，DeepMind在人工智能的发展中绝对有着重要的地位，从AlphaGo, AlphaZero到AlphaStar，再到如今的AlphaFold 2，每次DeepMind发布新产品似乎都要彻底消灭该行业。

围棋界天才少年柯洁都不再下传统围棋，跑去练习云顶之弈。弈一时，悟一世，切换赛道誓在新概念围棋夺生涯第九冠（bushi）。

DeepMind在围棋、星际争霸和德州扑克等取得的巨大成就，实际上都归功于DeepMind于2013年发布的DQN算法，也是深度学习和强化学习的首次成功结合。

Deep Q-Networks (DQN) 于 2013 年首次发布，仅将游戏的像素值作为网络的输入，成功在一套雅达利（Atari）游戏中超越之前的所有模型的得分，甚至有三个还超越了骨灰级玩家的得分。

智能体直接从经验中进行学习，并成功学习到有效的行动在当年是一项重大突破，也让通用人工智能AGI的重回大众视线：计算机在诸多任务中获得的智能，也许比人类更强！

不过DQN的训练并没有想象中那么简单！

内容中包含的图片若涉及版权问题，请及时与我们联系删除