生成式 AI(人工智能)在2022年引起了很多令人兴奋和炒作的地方,Twitter 和 Reddit 等社交媒体平台上充斥着由 DALL-E 和 Stable Diffusion 等生成式机器学习模型创建的图像。尽管市场低迷,但基于生成式模型构建产品的初创公司仍在吸引着资金,大型科技公司也正在将生成式模型整合到他们的主流产品中。

生成式AI并不新鲜,除了少数值得注意的例外,我们今天看到的大多数技术已经存在了好几年。然而,几种趋势的融合,使生成式模型能够产品化,并将它们带到日常应用中成为可能。虽然该领域仍有许多挑战需要克服,但毫无疑问,生成式 AI 市场必将在 2023 年获得新的增长。

生成式AI的科学改进

随着生成对抗网络 (GANs)的出现,生成式 AI 在 2014 年开始流行,GANs 是一种深度学习架构,可以从噪声图中创建逼真的图像(例如人脸)。科学家后来创建了 GANs 的其他变体来执行其他任务,例如将一幅图像的风格转移到另一幅图像。GAN 和另一种深度学习架构变分自动编码器 (VAE),开启了 deepfakes 时代,这是一种修改图像和视频以将一个人的脸换成另一个人的 AI 技术。

2017 年出现了Transformer,这是大语言模型(LLM)(如GPT-3、LaMDA 和 Gopher)的基础深度学习架构。Transformer被用于生成文本、软件代码甚至蛋白质结构。Transformer的一种变体,“视觉变换器”,也用于图像分类等视觉任务。OpenAI 的 DALL-E 早期版本就是使用Transformer从文本生成图像。 

Transformer 是可扩展的,这意味着当它们变得更大并提供更多数据时,它们的性能和精度都会提高。但更重要的是,Transformer 模型可以通过无监督或自监督学习进行训练,这意味着它们不需要或只需要很少的人工标注数据,这是深度学习的主要瓶颈之一。

对比语言-图像预训练(CLIP) 技术是OpenAI 在 2021 年推出的一项技术,成为文本到图像生成器的关键。CLIP 通过从互联网收集的图像-标题对学习图像和文本之间的共享嵌入非常有效。CLIP和diffusion(另一种从噪声中生成图像的深度学习技术)被用于OpenAI的dale -2,以生成具有惊人细节和质量的高分辨率图像。

随着我们迈向 2022 年,更好的算法、更大的模型和更大的数据集帮助改善了生产模型的输出,创建了更好的图像、编写了高质量的软件代码,并生成了长段(大部分)连贯的文本。

发现正确的应用程序

生成模型最初是作为可以承担大量创造性工作的系统提出的。GANs以在很少输入的情况下生成完整的图像而闻名。像 GPT-3 这样的 LLM 因为撰写完整的文章而成为头条新闻。

但是随着该领域的发展,很明显生成模型在单独使用时是不可靠的。许多科学家一致认为,当前的深度学习模型——无论它们有多大——都缺乏一些基本的智能成分,这使得它们容易犯不可预测的错误。 

产品团队逐渐认识到,当生成模型以给用户更大控制权的方式实施时,它们的表现最好。

在过去的一年中,我们看到了一些以智能的、以人为中心的方式使用生成模型的产品,例如Copy AI,它是一种使用 GPT-3 生成博客文章的工具,它具有一个交互式界面,作者可以和 LLM 一起编写文章的大纲并充实它。 

使用 DALL-E 2 和Stable Diffusion 构建的应用程序还突出了用户控制,其功能允许编辑,再生或配置生成模型的输出。

正如 Google Research 首席科学家 Douglas Eck 在最近的一次AI 会议上所说,“这不再是关于创建逼真画面的生成模型,而是做一些你自己创造的东西,技术应该满足我们对我们所做事情的代理和创造性控制的需求。”

创建正确的工具和基础设施

随着算法和应用的发展,生成模型的计算基础设施和平台也在不断发展,这帮助许多公司将生成式 AI 集成到他们的应用程序中,而不需要设置和运行生成式模型所需的专业技能。

拥有经验丰富机器学习工程师的产品团队可以使用开源生成模型,例如BLOOM和 Stable Diffusion。同时,内部没有机器学习人才的团队可以从多种解决方案中进行选择,例如 OpenAI API、Microsoft Azure 和 HuggingFace Inference Endpoints,这些平台简化了建立模型和大规模运行模型的复杂性。

另外值得注意的是 MLops 平台的发展,这使得建立完整的管道来收集反馈数据、版本控制数据集和模型以及针对特定应用程序微调模型成为可能。

生成式人工智能的下一步是什么?

生成式 AI 行业仍有挑战需要克服,包括道德伦理和版权问题。

但有趣的是,目前,生成式AI的发展,主要集中在拥有数据、计算能力、成熟市场产品的大型科技公司,它们拥有成熟的市场和产品,可以为生成模型提供附加的价值,例如:微软正在利用其云基础设施、 OpenAI 技术的独家访问权、以及其办公和创意工具的巨大市场,将生成模型的力量带给用户。

Adobe 还准备将生成式 AI 集成到其视频和图形设计工具中。谷歌也有几款生成式人工智能产品正在开发中。 

然而,未来,生成式AI的真正力量可能会在新市场中体现出来。但谁知道呢,说不定生成式 AI 会迎来一个我们以前从未想过的应用新时代。

内容中包含的图片若涉及版权问题,请及时与我们联系删除