AIGC：从皮囊到灵魂

随着技术的不断发展和突破，AIGC（利用 AI 技术自动生成内容）成为了人工智能技术新的引爆点。

不仅在绘画、音乐、游戏、新闻等内容创作领域的影响和作用越来越大，还逐渐从概念走向了落地：里约奥运会上亮相的写稿机器人、北京冬奥会上的 AI 手语主播、近两年大火的“ AI 虚拟数字人”......

AIGC 的背后，是以人工智能技术为核心，多模态交互技术、3D 数字人建模、机器翻译、语音识别、自然语言理解等多项关键技术共同整合加持而成。其中，自然语言处理技术（ NLP ）是未来所有人工智能技术的基础和根本。

本篇文章将从数字原生的角度出发，探讨人工智能的不同等级和任务，回望过去人类在对话系统方面的探索，一起走进人工智能由机械皮囊到拥有灵魂的 AI 数字世界。

人工智能的三个等级

从智能分级的角度来看，人工智能可以分为三个层次：感知智能、认知智能和通用人工智能（AGI）。

感知智能通常聚焦在视觉、听觉还有嗅觉等信号的处理。

由于充分利用了 DNN 和大数据的成果，目前的人工智能在感知智能层面已经越来越接近于人类。

人工智能在这个阶段中的感知任务包括音频、图像和视频的生成。

当前的文本生成和图像生成已经处于比较成熟的阶段，可以利用 AI 进行一些文章的续写和创作，或者根据文本让 AI 产出相应的图像，在此之前 MidJourney 生成的数字油画还在艺术比赛中获得了第一名。

不过 AI 绘画仍旧存在一些细节不足的问题，也没有 AI 模型可以生成具有足够感染力和逻辑性的长篇文学内容。

图源：MidJourney 获奖作品《空间歌剧院》

随着技术的迭代，AI 生成也步入了短视频时代，从技术上来看，视频可以认为是多张“图片”有逻辑、连贯的组成，是AI生成图像的深度延伸。

但现在的视频生成技术其实还存在不少门槛，比如视频动作过渡不自然、理解角度诡异、视频分辨率不高等。

这些情况的出现主要是因为 AI 工具模型的能力不高，对模型投喂的素材数据质量有一定的要求。如果这些问题得不到较好的解决，也会限制未来一些场景的应用可能。

认知智能主要聚焦在语言推理的部分。

人类有语言，才有概念、推理和观念，这些都是认知智能的表现。对于机器来说，能否进行一些复杂的阅读理解任务并与人类进行有效的对话是它们实现认知智能的重要条件。

然而，由于信息输入的完备性和生成的开放性，人工智能在不同难度的任务之间的表现差别是非常大的。

一些比较简单的任务如机器翻译，只需要输入足够完备的信息，就可以根据文本翻译成相应的信息。

但在故事生成、散文生成、对话生成等更高难度的认知任务中，机器很难做到像人类同样水准的输出。

一方面，机器的输入信息是非常有限的。另一方面，不但需要模型具备高创造性，而且是开放的生成。

开放的生成是指机器不会局限于固定的答案标准，而是根据当前情景生成很多不同的回复。

所以，要让 AI 像人类一样做到能听会看、能说能写，少不了自然语言处理技术，这也是为什么我们说 NLP 是人工智能皇冠上的明珠。

人工智能最高的等级——AGI，就是达到无障碍的人机交互。

在这个层次的 AI ，具备和人相同的智能水平，不但能和人类进行流畅的语言交互，还能像人一样思考和学习，也就是拥有自己的“灵魂”。

早在计算机技术发端之时，人类就对能思考的机器人抱有宏大的梦想。

从阿西莫夫提出的机器人三定律，到《2001太空漫游》中的人工智能雏形 Hal ，以及《星球大战》等影视剧，人类设想了许多未来与人工智能共存的世界。

图源：2001太空漫游

回到现在，虽然 AGI 的实现对我们来说还是比较困难的一件事情，不过我们仍然有可能在某些特定的场景和应用里，让人工智能达到一个类 AGI 的能力——通过开放域的类人的对话系统，让 AI 具有自己的思想和灵魂。

对话系统的三阶段

从人工智能发展到现在，我们在对话系统领域的探索经历了三个时代。

人类最早的对话系统程序是1966年开发的心理治疗机器人——Eliza，这是第一代基于一定规则的对话系统。

从2011年到2018年，我们进入了智能助理的时代。包括第一个手机助理 Siri、微软小冰、Google 的home，还有 Amazon 的 echo 等一系列的产品。

第三个时代，是深度学习的时代。也就是基于大量的数据和超大的模型，训练出来的神经网络对话系统。包括 Google 的 Meena 、 Openi AI 的 GPT- 3 、百度的 PLATO 、还有聆心智能与清华团队共同发布的 OPD—— Open-Domain Pre-trained Dialogue Model。