在过去的十年间,由于有了人工神经网络计算的助力,自然语言处理(NLP:natural language processing)取得了巨大甚至令人意想不到的突破,而最近几年的大规模预训练语言模型(LNLM/large pretrained language model)更将自然语言处理的能力带上了新的高度。
最新的大规模语言模型,除了可以出色地胜任传统的语言理解和生成、以及较新的写作和推理等语言相关的任务之外,更开始突破语言这一边界,在其他的感官结合的领域开始展现出较强的理解与生成的能力。
近日, 斯坦福大学机器学习、语言学和计算机科学教授,同时也是斯坦福人工智能实验室(SAIL)主任的克里斯朵夫·D·曼宁(Christopher D. Manning)发布的一篇名为《人类语言的理解与推理》(Human Language Understanding & Reasoning)的论文,对 NLP 的发展进行了综合性的回顾与展望。在论文中,在回顾了自然语言处理的发展历史的四个阶段的基础上,作者对由人工智能驱动的自然语言处理(NLP)以及大规模语言模型的现状和发展趋势进行了展望。
图|克里斯朵夫·D·曼宁(Christopher D. Manning)发布的名为《人类语言的理解与推理》(Human Language Understanding & Reasoning)的论文 (来源:amacad)
在回顾自然语言处理的发展历史时,曼宁将其分成了四个阶段。
自然语言处理发展的第一个阶段是人类刚刚开始进行机器翻译研究的 1950 年到 1969 年这一阶段。如今关于这段历史的主要观点是,基于二战期间使用计算机进行密码破译技术方面的巨大突破,人们开始将这一技术用于翻译。而在冷战期间,各国的研究人员希望有工具和系统可以帮助本国迅速学习其他国家的科学成果并纳为己有。尽管在 NLP 发展的这一阶段,人类对于人工智能或者是机器学习基本毫无概念,所使用的数据量和计算量和今天比起来也几乎不值一提,但是这些工具和系统形成了 NLP 的早期雏形。
而从 1970 年到 1992 年间,也就是 NLP 发展的第二个阶段,NLP 系统在语言处理的许多方面,包括对句法和引用等的识别与理解等的能力,无论是在复杂性还是在深度方面都得到了巨大的提升。
这一阶段比较有代表性的 NLP 系统包括:斯坦福大学计算机科学教授特里·维诺格拉德(Terry Winograd)开发的 SHRDLU 系统、哈佛大学教授同时也是美国计算语言学协会 (ACL)终身成就奖得主比尔·伍兹(Bill Woods)开发的 LUNAR 系统等。尽管这些系统只是由程序员基于规则而“手工”编程构造的系统,但是这时的 NLP 系统开始对于语言理解的复杂性进行建模和使用。这一阶段的一些系统已经开始被用于数据库查询等任务中。与此同时,语言学以及以已有知识为基础的人工智能也快速进步着。
而到了 1993 年到 2012 年间,NLP 发展的方向剧烈转变,也就是 NLP 的发展进入了第三个阶段。在这一时期,人们对于数字文本的使用巨幅增加,与之同步的则是迅猛的算法的发展,人们开始通过使用大量的文本来开发可以实现一定程度的语言理解的系统,并进一步通过更多的文本来提高系统的语言理解能力。不难看出,这也为今后的 NLP 领域的基于经验的机器学习模型奠定了基础,事实上,这一方向即使在今天的 NLP 领域仍是主要的发展方向之一。
不过在这一时期,所使用的文本数量相对有限,主要是在线文本,而且通常只有数千万字。而当时系统的所能理解和捕捉到的也主要是一些单词,最早期的从文本集合中学习语言结构的一些尝试也均以失败告终。而且,当时 NLP 系统所能理解的单词也十分有些,更多的是像地点(如城市、城镇或堡垒)、隐喻概念(如想象力、注意力等)类型的词语。
而从 2013 年至今,随着深度学习和人工神经网络的迅速发展并引入 NLP 领域, NLP 发展进入了第四阶段,尽管 NLP 的发展方向仍是延续第三个阶段的方向,但这时 NLP 系统的能力已经有了翻天覆地的变化。在这一阶段中,单词和句子是通过几十万维的向量空间里的一个位置来表示的,而意义或语法的相似性则是由这一空间中的邻近性所表示的。
从 2013 年到 2018 年间,在深度学习的驱动下,对距离较远的上下文进行建模,并理解其中具有类似含义的单词或短语,对于 NLP 系统来说已经是轻而易举。
而到了 2018 年,随着大规模自监督神经网络学习在 NLP 领域的成功,NLP 系统的能力实现了质的变化。有了大规模预训练语言模型(large pretrained language model /LPLM ),现在只要拥有大量文本,系统就可以迅速、且深度地掌握其中包含大量的语言和知识。
而且有了 LPLM,系统除了在传统的语言的理解、问答、生成方面有了大幅的提升,甚至越来越接近人类的水平,更开始与其他的感官或多媒体相结合。
曼宁也认为,与其他感官的结合将给 NLP 对世界的理解能力带来巨大的飞跃,并举了一个例子来说明。曼宁认为,语言所包含的或者可以表达的意义总是有限的,而代表一个事物的语言背后的意义可以通过一个与这一语言相连的密集的网络来不断完善。例如,如果一个人说他正拿着一个印度的乐器 shehnai,人们对 shehnai 这一词的理解仍有限,但是如果给人们听一下 shehnai 这个乐器演奏出的声音,对它的理解就立刻丰富了许多。而换一个角度看,假设有一个人从未见过、感受或听过 shehnai,如果这时有人告诉他这是一个传统的类似于双簧管的印度乐器,这个人对 shehnai 一词的理解就多了一些:它与印度有关,是管乐器、并用来演奏音乐。如果有人继续补充说它有孔和多个簧片、并拥有一个类似双簧管的喇叭形末端,那么这个人对于 shehnai 这一词的特征和属性也会有所了解。
曼宁认为,大规模预训练语言模型的学习意义在于,除了让系统对于词义了解更多,更重要的是让系统对于这个世界有了更多的了解。正如人类一样,机器的知识存储库的丰富对于其写作也受益匪浅。 事实上,仅仅从文本中学习所得的对词义和世界的理解还不够完整,有时还需要其他感官的数据来增强。
事实上,已经有许多国内外的企业和机构在大规模预训练语言方面取得了成就,尤其是在突破语言的界限并与其他感官相结合方面。
DeepMind 公司的 BERT 语言模型,其强大的学习能力不仅使其在 NLP 各项任务的基准测试中表现出众,更是在多模态领域表现出色。VisualBERT、VideoBERT等预训练模型都实现了图片或视频与文本交互领域的应用。
图|VisualBERT 的结构(来源:加利福尼亚大学)
4 月 29 日揭晓的 CLUE(中文语言理解评测集合)分类榜中,腾讯公司的“混元”AI 大模型也取得第一名,分数甚至已经达到了接近人类语言理解能力的水平。而且,“混元”AI 大模型不仅具备自然语言理解、文案生成能力,也有着出色的计算机视觉、多模态内容理解、视觉生成等能力。
图|CLUE(中文语言理解评测集合)分类榜(来源:资料图)
此外,OpenAI 公司的 DALL·E 大规模语言模型已经具有了图像生成器的功能,他可以直接从文字描述的内容创造出类似于超现实主义的图像。
图|DALL·E 模型基于文本“牛油果形状的扶手椅”生成的图像(来源:OpenAI)
NLP 在过去十年间已经取得了出乎人类意料的发展,而随着大规模语言模型的发展,计算机将突破语言的界限并可以掌握越来越多的感官信息。正如曼宁所说,可以理解更多种感官信息的模型也意味着它们将更广泛地使用,而正因为此,人们将可能在未来十年内就看到一种普遍适用的更基础的人工智能形式。
参考:
https://www.amacad.org/publication/human-language-understanding-reasoning
https://arxiv.org/pdf/1908.03557.pdf
https://openai.com/blog/dall-e/
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢