Stories Behind Science丨“弈”智游戏——从“深蓝”到AlphaGo

在过去几十年里，棋坛曾上演过数次激动人心的“人机大战”。而每一次大战的结局，都带给人类巨大的冲击与思考。2016年的今天（3月15日），“人机大战”的一次巅峰对决尘埃落定——围棋大师李世石以总比分1比4败给了人工智能AlphaGo。尽管这场举世瞩目的“大战”已过去6年，但AI对于整个围棋行业以及职业棋手们的影响，一直延续至今。

2022年中日韩三国围棋擂台赛赛后，输给韩国棋手申真谞的柯洁，在社交媒体上留下了这样的字句（图片来源：互联网）
人类与计算机在棋盘上的“羁绊”究竟是从何时开始的呢？故事要从100多年前说起……

1898年，美国行为主义心理学家爱德华·桑代克（Edward Thorndike）正在进行一项有趣的实验——“迷箱实验”。

爱德华·桑代克（图片来源：互联网）
他将猫关进一个名为“迷箱”的实验装置中。箱子设有机关，只有通过触碰一个杠杆，猫才能从内部打开箱子，吃到外面的鱼。每当猫成功逃离迷箱后，又会被再一次放回箱内。在多次尝试之后，猫就“学会”了通过按压杠杆来获得最有益的结果。它们会接受这种行为，并在之后的实验中更迅速地按下杠杆。

桑代克的迷箱（图片来源：互联网）

正是这样一个实验，帮助桑代克验证了生物学习过程中的“规律性”——学习是一个渐进的过程，而非顿悟。桑代克将这种行为命名为“效果律”（Law of Effect），即能够带来好结果的行为会得到重复，而不好的行为可能会被停止。而这一规律与后来强化学习的方法论如出一辙。然而，这种学习机制在机器上的模拟，却晚了近半个世纪。1943年，美国学者沃伦·麦卡洛克（Warren S.McCulloch）和沃尔特·皮茨（Walter Pitts）在《数学生物物理学公告》上发表论文《神经活动内在思想的逻辑演算》（A Logical Calculus of the Ideas Immanent in Nervous Activity），讨论简化人工神经元网络及其实现逻辑功能的机制。这篇文章不仅推动了人工网络的研究，还给当年一位名叫马文·明斯基（Marvin Minsky）的哈佛大学学生带来很大的启发。

马文·明斯基（图片来源：互联网）

1950年前后，马文·明斯基决定和他的同学迪恩·埃德蒙兹（Dean Edmonds）合作进行人工神经网络的研发。他们打造了一台名为SNARC（Stochastic Neural Analog Reinforcement Calculator）的模拟人脑的机器。明斯基和埃德蒙兹用SNARC进行了“老鼠走迷宫”实验。在多次随机尝试后，这些老鼠可能会在偶然情况下走出迷宫。这个成功的反馈，会“促使”老鼠们对行为产生的结果进行“思考”，继而在后续的逃离迷宫尝试中更倾向于选择会带来这些良性结果的尝试。1956年夏季，明斯基和一批有远见卓识的年轻科学家聚在一起，共同研究和探讨用机器模拟智能的一系列有关问题，并首次提出了“人工智能”这一术语。这也标志着“人工智能”这门新兴学科正式诞生。后来，马文·明斯基被奉为“人工智能之父”。

1963年，人类与计算机展开了历史上的首次“对弈”。国际象棋大师兼教练大卫·布龙斯坦怀疑计算机的创造性能力，决定用自己的智慧与计算机一较高下，并且，他还同意“让一个子”的不利条件。但当对局进行到一半时，计算机就把布龙斯坦的一半兵力都吃掉了......时间转眼来到1996年2月10日，“人机大战”真正意义上的巅峰对决终于打响。由IBM公司研发的超级电脑——“深蓝”（Deep Blue），向当时的国际象棋世界冠军加里·卡斯帕罗夫（Garry Kasparov）发起了首次挑战。

IBM的超级电脑"深蓝"（图片来源：互联网）

卡斯帕罗夫在国际象棋界可谓是叱咤风云的人物。他6岁开始下棋，13岁获得全苏青年赛冠军，15岁成为国际大师，16岁获世界青年赛第一名，17岁晋升国际特级大师，22岁时成为世界上最年轻的国际象棋冠军。

加里·卡斯帕罗夫（图片来源：互联网）

卡斯帕罗夫棋风活泼，思维非理性，有异常敏锐的感知判断力，能通过一些战术性的接触出人意料地改变棋局的自然进程。甚至经常采取大胆弃子、疾进反击的策略去赢得比赛。果不其然，面对世界顶级大师，“深蓝”作为国际象棋界的“新晋选手”以2-4败下阵来。比赛结束后，研究小组决定把深蓝加以改良。

加里·卡斯帕罗夫VS深蓝（图片来源：互联网）

1997年5月3日至11日，卡斯帕罗夫再次与“深蓝”展开对垒，而“人机大战”也终于迎来了历史性的时刻。在经过六盘大战后，“深蓝”以3.5∶2.5（2胜1负3平）的比分险胜卡斯帕罗夫，震惊了世界。输掉比赛后的卡斯帕罗夫只能调侃地说道：“它（深蓝）不会因为胜利而感到喜悦。”此后，计算机又向延续了上千年的中国象棋发起了“进攻”。2006年，“浪潮杯”首届中国象棋人机大战拉开帷幕。在这次比赛中，超级计算机“浪潮天梭”迎战了5位中国象棋特级大师。经过三个小时历时十局的激战，“浪潮天梭”取得了3胜5平2负的战绩，最终战胜了大师联盟。整场比赛可谓是“艰苦卓绝”，几位大师更是坦言：“浪潮天梭”耐力惊人、不知疲倦，并且稳定性极强。以往和人比赛，到了最后时刻就是意志和心态的对决，看谁能坚持到最后，谁能不犯错误，但是计算机则没有这样的问题。

当国际象棋冠军卡斯帕罗夫输给“深蓝”时，一位远在英国的计算机青年菁英——戴密斯·哈萨比斯（Demis Hassabis）大受触动。他感受到了人工智能蕴含的无穷魅力，立志要为围棋编写一个智能程序来打败人类顶级的围棋高手。

戴密斯·哈萨比斯（图片来源：互联网）

哈萨比斯从小便被称为“天才少年”。他4岁开始下国际象棋，8岁开始自学编程，13岁时获得国际象棋大师称号。16岁那年，他进入剑桥大学攻读计算机科学专业。在大学里，他第一次接触围棋就被这个人类开发的最复杂的游戏之一深深地吸引了，于是他决定开始学习围棋。哈萨比斯在计算机领域可谓天赋异禀。17岁时，他便设计出游戏《主题公园》，是当时最早包含人工智能元素的游戏之一。1998年，22岁的哈萨比斯就成立了自己的电脑游戏公司“仙丹工作室”。2010年，哈萨比斯和他的伙伴们创建了DeepMind Technologies，并以“解决智能”为公司的终极目标。但在哈萨比斯创立DeepMind之初，人们对于人工智能领域的兴趣还远远不及今天。为了加速该领域的发展，DeepMind采用了跨学科的方式，汇集了机器学习、神经科学、工程、数学、模拟等方面的各种新想法。

DeepMind（图片来源：百度百科）

DeepMind最先是在计算机游戏中取得了早期的成功。他们开发的一个智能程序能够从零开始，只是通过看到屏幕上的像素和分数，就学会了玩49种不同的游戏。2014年，DeepMind被谷歌高价收购。在那年的温哥华TED大会上，谷歌CEO拉里·佩奇（Larry Page）专门谈到了哈萨比斯，还将他公司的技术称作“我很久以来见过的最惊人的技术之一”。而之后，那个连续创造“围棋神话”的人工智能——AlphaGo，就是由DeepMind研发的。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Stories Behind Science丨“弈”智游戏——从“深蓝”到AlphaGo

评论