来源:机器之心 作者:闻菲、陈萍

唐杰认为,超大规模预训练模型的出现,很可能改变信息产业格局,继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的 AI 时代。智源研究院致力于成为这样一个时代的引领者,集聚各方资源力量,构建一个超大规模智能模型技术生态和开放平台,供北京乃至全国的研究人员、开发者和企业使用。

自 2018 年谷歌发布 BERT 以来,预训练模型(Pre-trained Models,PTMs)逐渐成为自然语言处理(NLP)领域的主流。

2020 年 5 月,OpenAI 发布了拥有 1750 亿参数量的预训练模型 GPT-3。作为一个语言生成模型,GPT-3 不仅能够生成流畅自然的文本,还能完成问答、翻译、创作小说等一系列 NLP 任务,甚至进行简单的算术运算,并且其性能在很多任务上都超越相关领域的专有模型,达到 SOTA 水平。

很快,OpenAI 便开始了 GPT-3 的商业化探索,并催生了一系列落地应用,微软的巨额投资也立马跟进。同样看中 PTM 潜力的谷歌,在 2021 年初推出超级语言模型 Switch Transformer,将参数量提升至万亿级别。

以 GPT-3 为代表的超大规模预训练模型,不仅以绝对的数据和算力优势彻底取代了一些小的算法和模型工程,更重要的是,它展示了一条探索通用人工智能极富潜力的路径。然而,作为全球使用人数第一的语言,中文 PTM 寥寥可数。在这样的发展态势下,构建以中文为核心的超大规模预训练模型及生态势在必行。

2021 年 3 月 20 日,北京智源人工智能研究院(下称「智源研究院」)发布了我国首个超大规模智能模型系统「悟道」的第一阶段成果。「悟道」由智源研究院牵头,汇聚清华、北大、人大、中科院等高校院所,以及诸多企业的 100 余位 AI 领域专家共同研发,从基础性能、有效使用到预训练模型扩展,提出一系列创新解决方法,取得多项国际领先的 AI 技术突破和多个世界第一。

机器之心专访了智源研究院学术副院长、清华大学教授唐杰。作为悟道项目负责人,唐杰分享了团队关于超大规模预训练模型的技术思考和战略布局,以及智源研究院作为新一代 AI 研究机构的优势。

智源研究院学术副院长、清华大学教授唐杰

唐杰认为,超大规模预训练模型的出现改变了 AI 产业格局,继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的 AI 时代。而智源研究院要做的,则是致力于成为这样一个时代的引领者,集聚各方资源力量,构建一个超大规模智能模型技术生态和开放平台,供北京乃至全国的研究人员、开发者和企业使用。

今后越来越多的人会使用云上的超大规模预训练模型作为其 AI 研究和应用的基础。超大规模预训练模型系统将成为一种 AI 基础设施,推动理论研究和技术应用更上一层。

完整报道可以戳原文。

内容中包含的图片若涉及版权问题,请及时与我们联系删除