作者:Will Douglas Heaven
GPT-3,OpenAI 的模仿人类语言的程序,开启了人工智能的新趋势,用于越来越大的模型。 它们将有多大,成本是多少?
这是超大型 AI 模型的一年。
当 OpenAI 在 2020 年 6 月发布 GPT-3 时,神经网络对语言的明显把握是不可思议的。 它可以生成令人信服的句子,与人类交谈,甚至自动完成代码。 GPT-3 的规模也很庞大——比有史以来构建的任何其他神经网络都要大。 它开启了人工智能的全新趋势,即越大越好。
尽管 GPT-3 倾向于模仿它所训练的在线文本中固有的偏见和毒性,并且即使需要不可持续的大量计算能力来教授如此大的模型其技巧,我们还是选择 GPT-3 作为其中之一 我们 2020 年的突破性技术——无论好坏。
但 GPT-3 的影响在 2021 年变得更加明显。 今年带来了由多家科技公司和顶级 AI 实验室构建的大型 AI 模型的激增,许多模型在规模和能力上都超过了 GPT-3 本身。 它们能有多大,成本是多少?
GPT-3 吸引了全世界的注意力,不仅因为它可以做什么,还因为它是如何做到的。性能的惊人飞跃,尤其是 GPT-3 对未经专门训练的语言任务进行泛化的能力,并不是来自更好的算法(尽管它确实严重依赖于谷歌在 2017 年发明的一种神经网络,称为一个变换器),但从绝对尺寸。
“我们认为我们需要一个新想法,但我们只是通过规模实现了这一目标,”OpenAI 的研究员兼 GPT-3 的设计者之一贾里德·卡普兰 (Jared Kaplan) 在 12 月在领先的人工智能会议 NeurIPS 举行的小组讨论中说。
微软的两位研究人员在 10 月份的一篇博客文章中写道:“我们继续看到 AI 模型的超扩展导致更好的性能,而且似乎看不到尽头,”该公司与 Nvidia 合作构建的大型威震天-图灵 NLG 模型在一篇博客文章中写道。
模型很大意味着什么?模型(一个经过训练的神经网络)的大小是通过它拥有的参数数量来衡量的。这些是网络中的值,在训练过程中一次又一次地调整,然后用于进行模型的预测。粗略地说,模型的参数越多,它从训练数据中吸收的信息就越多,它对新数据的预测就越准确。
GPT-3 拥有 1750 亿个参数,是其前身 GPT-2 的 10 倍。但 GPT-3 与 2021年模型相比相形见绌。 美国初创公司 AI21 Labs 于 9 月推出的商用大型语言模型 Jurassic-1 以 1780 亿个参数略胜 GPT-3。 DeepMind 12 月发布的新模型 Gopher 有 2800 亿个参数。威震天-图灵 NLG 有 5300 亿。谷歌的 Switch-Transformer 和 GLaM 模型分别有 1 个和 1.2 万亿个参数。
这种趋势不仅仅发生在美国。今年,中国科技巨头华为构建了一个名为盘古的 2000 亿参数语言模型。另一家中国公司浪潮建立了源1.0,一个 2450 亿参数的模型。百度和深圳的一家研究机构鹏程实验室宣布了 PCL-BAIDU Wenxin,这是一个拥有 2800 亿个参数的模型,百度已经在各种应用中使用,包括互联网搜索、新闻提要和智能音响。而北京人工智能研究院发布了悟道2.0,拥有1.75万亿个参数。
与此同时,韩国互联网搜索公司 Naver 宣布了一个名为 HyperCLOVA 的模型,有 2040 亿个参数。
这些中的每一个都是一项显着的工程壮举。首先,训练一个包含超过 1000 亿个参数的模型是一个复杂的管道问题:数百个独立的 GPU——训练深度神经网络的首选硬件——必须连接和同步,训练数据必须分成块和在正确的时间以正确的顺序在它们之间分配。
大型语言模型已成为展示公司技术实力的声望项目。然而,这些新模型中很少有人能将研究向前推进,而不是重复证明扩大规模会产生良好结果。
有一些创新。经过训练后,Google 的 Switch-Transformer 和 GLaM 会使用其一小部分参数进行预测,从而节省计算能力。 PCL-Baidu Wenxin 将 GPT-3 风格的模型与知识图谱相结合,这是一种在“老派”符号 AI 中用于存储事实的技术。与 Gopher 一起,DeepMind 发布了 RETRO,这是一种只有 70 亿个参数的语言模型,它在生成文本时通过交叉引用文档数据库与其他 25 倍的参数竞争。这使得 RETRO 的培训成本低于其巨大的竞争对手。
然而,尽管取得了令人印象深刻的结果,研究人员仍然不明白为什么增加参数数量会导致更好的性能。他们也没有修复这些模型学习和重复的有毒语言和错误信息。正如最初的 GPT-3 团队在一篇描述该技术的论文中承认的那样:“互联网训练的模型具有互联网规模的偏差。”
DeepMind 声称 RETRO 的数据库比单一的黑盒模型更容易过滤有害语言,但尚未对此进行全面测试。更多的见解可能来自 BigScience 计划,这是一个由 AI 公司 Hugging Face 成立的财团,该财团由大约 500 名研究人员组成,其中许多来自大型科技公司,他们自愿花时间构建和研究开源语言模型。
在年初发表的一篇论文中,Timnit Gebru 和她的同事强调了 GPT-3 式模型的一系列未解决的问题:减轻这些风险,”他们写道。
尽管今年在构建新语言模型方面付出了很多努力,但 AI 仍然停留在 GPT-3 的阴影中。 “在 10 或 20 年内,大型模型将成为常态,”卡普兰在 NeurIPS 小组会议上说。如果是这样的话,研究人员就应该不仅关注模型的大小,还关注他们如何处理模型。
参考
https://www.technologyreview.com/2021/12/21/1042835/2021-was-the-year-of-monster-ai-models/
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢