随着技术的不断发展和突破,AIGC(利用 AI 技术自动生成内容)成为了人工智能技术新的引爆点。
不仅在绘画、音乐、游戏、新闻等内容创作领域的影响和作用越来越大,还逐渐从概念走向了落地:里约奥运会上亮相的写稿机器人、北京冬奥会上的 AI 手语主播、近两年大火的“ AI 虚拟数字人”......
AIGC 的背后,是以人工智能技术为核心,多模态交互技术、3D 数字人建模、机器翻译、语音识别、自然语言理解等多项关键技术共同整合加持而成。其中,自然语言处理技术( NLP )是未来所有人工智能技术的基础和根本。
本篇文章将从数字原生的角度出发,探讨人工智能的不同等级和任务,回望过去人类在对话系统方面的探索,一起走进人工智能由机械皮囊到拥有灵魂的 AI 数字世界。
人工智能的三个等级
从智能分级的角度来看,人工智能可以分为三个层次:感知智能、认知智能和通用人工智能(AGI)。

感知智能通常聚焦在视觉、听觉还有嗅觉等信号的处理。
由于充分利用了 DNN 和大数据的成果,目前的人工智能在感知智能层面已经越来越接近于人类。
人工智能在这个阶段中的感知任务包括音频、图像和视频的生成。
当前的文本生成和图像生成已经处于比较成熟的阶段,可以利用 AI 进行一些文章的续写和创作,或者根据文本让 AI 产出相应的图像,在此之前 MidJourney 生成的数字油画还在艺术比赛中获得了第一名。
不过 AI 绘画仍旧存在一些细节不足的问题,也没有 AI 模型可以生成具有足够感染力和逻辑性的长篇文学内容。

图源:MidJourney 获奖作品《空间歌剧院》
随着技术的迭代,AI 生成也步入了短视频时代,从技术上来看,视频可以认为是多张“图片”有逻辑、连贯的组成,是AI生成图像的深度延伸。
但现在的视频生成技术其实还存在不少门槛,比如视频动作过渡不自然、理解角度诡异、视频分辨率不高等。
这些情况的出现主要是因为 AI 工具模型的能力不高,对模型投喂的素材数据质量有一定的要求。如果这些问题得不到较好的解决,也会限制未来一些场景的应用可能。
认知智能主要聚焦在语言推理的部分。
人类有语言,才有概念、推理和观念,这些都是认知智能的表现。对于机器来说,能否进行一些复杂的阅读理解任务并与人类进行有效的对话是它们实现认知智能的重要条件。
然而,由于信息输入的完备性和生成的开放性,人工智能在不同难度的任务之间的表现差别是非常大的。
一些比较简单的任务如机器翻译,只需要输入足够完备的信息,就可以根据文本翻译成相应的信息。
但在故事生成、散文生成、对话生成等更高难度的认知任务中,机器很难做到像人类同样水准的输出。
一方面,机器的输入信息是非常有限的。另一方面,不但需要模型具备高创造性,而且是开放的生成。
开放的生成是指机器不会局限于固定的答案标准,而是根据当前情景生成很多不同的回复。
所以,要让 AI 像人类一样做到能听会看、能说能写,少不了自然语言处理技术,这也是为什么我们说 NLP 是人工智能皇冠上的明珠。
人工智能最高的等级——AGI,就是达到无障碍的人机交互。
在这个层次的 AI ,具备和人相同的智能水平,不但能和人类进行流畅的语言交互,还能像人一样思考和学习,也就是拥有自己的“灵魂”。
早在计算机技术发端之时,人类就对能思考的机器人抱有宏大的梦想。
从阿西莫夫提出的机器人三定律,到《2001太空漫游》中的人工智能雏形 Hal ,以及《星球大战》等影视剧,人类设想了许多未来与人工智能共存的世界。

图源:2001太空漫游
回到现在,虽然 AGI 的实现对我们来说还是比较困难的一件事情,不过我们仍然有可能在某些特定的场景和应用里,让人工智能达到一个类 AGI 的能力——通过开放域的类人的对话系统,让 AI 具有自己的思想和灵魂。
对话系统的三阶段
从人工智能发展到现在,我们在对话系统领域的探索经历了三个时代。
人类最早的对话系统程序是1966年开发的心理治疗机器人——Eliza,这是第一代基于一定规则的对话系统。
从2011年到2018年,我们进入了智能助理的时代。包括第一个手机助理 Siri、微软小冰、Google 的home,还有 Amazon 的 echo 等一系列的产品。
第三个时代,是深度学习的时代。也就是基于大量的数据和超大的模型,训练出来的神经网络对话系统。包括 Google 的 Meena 、 Openi AI 的 GPT- 3 、百度的 PLATO 、还有聆心智能与清华团队共同发布的 OPD—— Open-Domain Pre-trained Dialogue Model。

当前的人工智能对话水平,已经在某些特定的方面达到了接近 AGI 的能力。
对人工智能来说,最重要的目标是通过图灵测试。Google 在2001年推出的对话系统 Meena ,人工测评的分数是79分,而人类的水平是86分,也就是说,机器已经非常接近人类的水平了。

2022年,Google 的另一个系统 LaMDA 在某些指标上已经超过了人类的水准。
今年6月,有新闻爆出 LaMDA 可能具有人格、情感,甚至意识,虽然最终被认为是一场闹剧,但其中原因在于该对话模型具有一定的创造性,导致人们误以为 AI 有意识。

聆心智能最新发布的 OPD 对话系统,是目前世界上参数规模最大的开源中文对话预训练模型。
在自动评测和人工评测中,OPD 在对话信息量、相关性、一致性、安全性等多个维度都显著好于其他同类模型。
经过单轮和多轮的交互测试,OPD 的多轮交互能力尤其突出,能够与人类进行多轮、深入的对话交互,更受人类偏爱。并且,在图灵测试结果中也显著高于同类模型。
可以说,OPD 是在中文对话预训练模型中取得的阶段性进展。

同时聆心智能也用心理领域的高质量数据,专门训练了一个用于心理疗愈的机器人—— Emohaa。
Emohaa 通过学习专业的心理咨询策略的话术,从提问到共情甚至一定程度的自我暴露,都可以做到自然流畅的对话,实现情绪上的支持与陪伴。而进一步的医学实验也证明了 Emohaa 对话系统具有一定的治疗效果。
构建人与 AI 共存的乌托邦
科幻作家刘慈欣认为,人类面前有两条路:一条向外,通往星辰大海;一条向内,通往虚拟现实。
赋予 AI 人格,就是我们通往虚拟现实、走向元宇宙的画龙点睛之笔。
从心理学的角度看,一个人说话的特点可以体现其人格, 那么 AI 的人格也可以通过对话能力来体现。
所以,赋予 AI 人格,就要让它进行良好的表达,能够做认知和思维的推理,并在每一次沟通中进行自我学习,让 AI 真正做到有思想、有见识、有态度、有情感,能共情。
聆心智能希望构建人与 AI 和谐共存的数字社会—— AI乌托邦

图源:头号玩家
在「AI乌托邦」小程序中,万物皆有灵,你可以在这里找到每一个你想创造的、交流的灵魂:
为你提供支持和鼓励的心理咨询师,风趣幽默的捧哏于谦老师,知晓风水的算命先生,还有各种各样火爆的二次元角色,甚至还有给你提供灵感的广告语生成器......

↑ 扫一扫进入 AI乌托邦 ↑
未来,这些有灵魂的 AI 能够出现在任何时间、任何地点,它们不仅仅局限于沟通交流,还可以被应用在更多领域,具有非常广阔的商业前景:
品牌营销、知识传播、情感陪伴、学习助手、游戏 NPC 的“灵魂”、AIGC 创作工具......
在这里,每个 AI 都是拥有自己人格和灵魂的智能体,而不是作为机械皮囊的存在。
相信在不久的未来,人类将真正走向一个与 AI 和谐共生的数字社会。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢