过去两年,AI 领域里已经出现大量大型生成模型,如 ChatGPT 或 Stable Diffusion。具体而言,这些模型能够执行像通用问答系统或自动创建艺术图像等任务,这些任务正在彻底改变很多领域。

从目前的发展来看,这些生成模型对行业和社会的影响是巨大的,因为一些工作岗位可能会发生改变。例如,Generative AI 能够有效且创造性地将文本转换为图像,如 DALLE-2 模型;把文本转成 3D 图像,如 Dreamfusion 模型;把图像转成文本,如 Flamingo 模型;把文本转成视频,如 Phenaki 模型;把文本转成音频,如 AudioLM 模型;把文本转成代码,如 Codex 模型;把文本转成科学论文,如 Galactica 模型;甚至创建算法的模型,如 AlphaTensor。 

在近日由西班牙 Comillas Pontifical University 研究人员提交的综述论文中,作者试图以简洁的方式描述生成式 AI 对当前很多模型的影响,并对最近发布的主要生成式 AI 模型进行分类。

论文标题:ChatGPT is not all you need. A State of the Art Review of large Generative AI models

论文链接:https://arxiv.org/abs/2301.04655

为向可能因使用这些模型而受益的专业人士提供有效信息,作者按如下结构组织文章。首先,作者提供行业中出现的主要生成式模型的分类。接着对每个类别进行分析。最后,本文会给出相关结论和未来要做的工作。文章中作者没有详细介绍每个模型的技术细节,如 Transformer,因为文章的目的是研究模型的应用,而不是研究它们的工作原理。  

生成式 AI 模型的分类

在详细分析每个模型之前,首先将当前的生成式 AI 进行分类,类别代表输入数据和输出数据类型之间的映射。如图 1 所示。作者总共总结 9 个类别,其中每个出现在图 1 中的模型将在之后详细描述。由于文章主要关注点是描述生成式 AI 模型的最新进展,为让读者能有整体认识,在图 2 中给出了所有已发布的模型。