德扑 AI 作者 Noam Brown 在推特上宣布,自己已经加入 OpenAI,将专注于通用的强化学习研究,目标是打造比 GPT-4 好 1000 倍的大语言模型。

此前,Noam Brown 致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统,其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus。这两个游戏 AI 系统为 Noam Brown 带来了巨大的关注度。
2017 年,Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。该研究登上了《Science》杂志,与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了 NIPS 2017 最佳论文奖。Noam 团队还因此获得了 IJCAI 颁发的第二枚马文・明斯基奖章 (Marvin Minsky Medal)。
2019 年 7 月,在无限制德州扑克六人对决的比赛中,Noam Brown 和团队开发的德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 实现了前辈 Libratus(冷扑大师)未能完成的任务,再次等登上了《Science》杂志。
2020 年 9 月,Noam Brown 完成 CMU 博士论文答辩 ,并公开了长达 230 页的超硬核博士论文《大型对抗性不完美信息博弈的均衡发现》。在该论文中,Noam Brown 详述了大型对抗性不完美信息博弈中均衡计算的一系列进展。这些新技术使得 AI 智能体首次有可能在无限注扑克游戏中击败顶级职业玩家,而这正是几十年来 AI 和博弈论领域一直存在的重大挑战性难题。
获得博士学位之后,Noam Brown 加入当时的 Facebook 人工智能研究中心任研究科学家,致力于多智能体人工智能的研究。
关于加入 OpenAI 后的未来,Noam 有很多的设想:
2016 年,AlphaGo 击败了李世石,是人工智能的一个里程碑,其中的关键是 AI 在每一步棋之前都要「思考」1 分钟的能力。这对它的提升有多大影响呢?对于 AlphaGoZero 来说,这相当于将预训练扩大了约 100,000 倍。 同样在 2016 年,我在扑克中观察到了类似的现象。这一洞察最终使得 Libratus 扑克 AI 首次击败了顶级人类玩家。后来,Andy L. Jones 在 Hex 中详细调查了训练时间 / 测试时间的计算 tradeoff,也发现了类似的模式。
Noam 的设想获得了很多 AI 领域专家的赞同,英伟达高级 AI 科学家 Jim Fan 也在推特表达了自己对于游戏 AI 与 LLM 相结合的期许:
这条推文中提到的「Demis Hassabis 观点」源自 6 月底的一篇《连线》采访。当时,Google DeepMind 的联合创始人兼首席执行官 Demis Hassabis 表示,Gemini 将结合 AlphaGo 的技术与大语言模型的能力,赋予系统更强的规划或解决问题的能力,将比 OpenAI 的 GPT-4 更加强大。Gemini 的开发目前还在进行中,预计需要数月的时间,并可能耗资数千万甚至数亿美元。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢