作者Jey、Trevor等 以下文章来源于悦智网,悦智网是IEEE Spectrum中文版《科技纵览》杂志官网。
仔细品品,“深士比亚”创作的诗句没什么意义,但“轻扫一眼似乎还不错”,就像英文老师说的:初看之下,它的节奏、韵律以及各行的基本语法都挺好。我们研究团队向世界展示了我们的AI诗作时发现,这些诗作足以骗过许多人;大部分读者都无法区分AI创作的诗和真正的诗人作品。 我们的团队由3位机器学习研究人员和1位文学学者组成,我们利用从在线图书馆古登堡计划获取的约2700首十四行诗对AI诗人进行训练。我们的“诗人”通过深度学习AI方法,自己学会了怎样创作诗——它反复钻研训练数据库中的诗,一次又一次地尝试创作出与这些示例相匹配的诗句。我们没有像以前的计算机诗歌生成项目那样向它提供押韵词典、发音词典或其他资源。相反,“深士比亚”独立学习了与十四行诗创作有关的3套规则:押韵、节拍和自然语言基础(哪些词相互搭配)。
我们的目标是发现深入学习在自然语言生成方面能走多远,并利用诗的有趣特性。在押韵和节奏方面,十四行诗等形式有着相当严格的模式要求,我们想知道所设计的系统架构能否让“深士比亚”自主学习这些模式。
我们的工作属于计算创造力这一蓬勃发展的研究领域。AI生成的画作已经在佳士得拍卖,“深度巴赫”(DeepBach)程序创作了令人信服的巴赫风格的音乐,雕塑和编舞等其他领域也有类似的AI作品。在语言和文学领域,来自OpenAI研究实验室的一个名为GPT-2的文本生成系统能够根据一个句子的开头生成相当连贯的文本段落。
过去10年间,在深度学习方面取得的巨大进步促成了这些计算创造力方面的实验。在创造性追求方面,深度学习有几个重要优势。首先,它非常灵活,并且训练深度学习系统(我们称之为模型)承担各种各样的任务也相对容易。这些模型还非常善于发现并归纳模式,有时还会产生令人惊奇的结果,这可以被解释为“偶然的创造力”。此外,深度学习算法内在的随机因素可导致模型输出的变化。如果人类合作者有耐心筛选不同的输出,那么这种可变性可以很好地生成创造性应用。最后,处理不同类型数据(包括文本、语音、图像和视频)的模型构建相对容易。
━━━━
十四行诗主要有两个特点:14行的长度和两部分的“论证”结构。在这种“论证”结构中,诗歌首先描述一个问题或提出一个疑问,然后给出一个解决办法或解决方案。在16世纪,英国诗人采用一种叫做五步抑扬格的节拍发展出一种独特的十四行诗风格,其由10个音节组成一行诗句,具有规律的轻音-重音节拍模式。一首英文十四行诗通常由3个四行诗节(称为四行诗)组成,由这3个诗节提出“问题”,然后是两行对句,节拍通常为ABAB CDCD EFEF GG。莎士比亚非常频繁地使用这种诗歌形式,以至于今天将其称之为莎士比亚十四行诗。
在“深士比亚”项目中,我们试图根据莎士比亚十四行诗的问题部分创作出单独的四行诗。因此,我们专注于用有规律的押韵格式创作五步抑扬格诗节,而不是复制十四行诗的全部14行形式或它两部分的论证结构。我们也希望有一天能进行这项更大的挑战,但首先要证明我们的AI诗人能够掌握单独四行诗的创作。
我们的系统由3个部分组成:学习五步抑扬格的节拍模型、学习哪些词汇相互押韵的押韵模型,以及学习哪些单词通常组合一起的语言模型。语言模型是逐字逐句产生十四行诗的主要部分。
语言模型通过对任意句子进行概率打分和排序,来判断哪些句子在一种语言(在本例中是英语)中是有效的。一个经过恰当训练的语言模型会对流畅的句子分配较高的概率,对无意义的句子分配较低的概率。但是想一下语言是如何产生和翻译的:按顺序,一个词接一个词。利用这一原则,我们可以把造句这个非常复杂的问题分解成一系列与单词相关的简单问题。语言模型的工作是着眼于句子的一部分,然后预测下一个单词应该是什么。为了做出这个预测,它会查看它知道的所有单词,并给每个具有可能性的单词一个单独的概率分数,分数取决于句子中已经存在的单词。
语言模型通过吸收其训练语料库中的所有单词和句子来学习这些概率;研究人员使用的是维基百科词条、红迪网(Reddit)上的评论,或专门为训练自然语言处理系统而构建的数据库。从这些文本宝库中,AI学会了哪些单词最常组合在一起。以“深士比亚”项目为例,模型从古登堡计划的全部诗集中学习语言方面的基本知识,并利用该在线图书馆收藏的大约2700首莎士比亚十四行诗(约有36.7万英文单词)来提高它的十四行诗写作能力。
语言模型的质量可以通过观察下一个单词时的“吃惊”程度来衡量。如果给它分配了一个比较高的概率分数,则说明这个词不令人吃惊;低概率分数的词表示非常令人吃惊。在利用文本训练语言模型时,这种吃惊程度可作为一种信号。如果模型对每个连续的词都不吃惊,就像我们一次处理大型文本语料库中的一个词那样,就可以认为模型捕获了语言的大部分复杂性。这包括多词组的存在,如经常同时出现的“San Francisco”(旧金山),掌控句子结构的语法和句法规则,以及语义信息,例如“coffee”(咖啡)倾向于用“strong”(强)或“weak”(弱)表示浓或淡,而很少使用“powerful”(强大)或“lightweight”(轻量)来形容。
我们的语言模型一旦经过训练,就可以完成一个句子或者从头开始生成一个句子。在任一种情形中,它都是通过随机选择一个具有高概率分数的单词,将其添加到不断扩大的句子中,然后重新计算所有可能出现的单词的概率来实现的。通过重复这个过程,“深士比亚”生成了它的诗行。
当“深士比亚”的语言模型在利用古登堡计划收集的十四行诗来学习词汇的概率之时,另一个节拍模型也在学习五步抑扬格。我们告诉节拍模型,每一行按照重音-轻音模式由10个音节组成。模型会观察每行中的字母和标点符号,然后确定哪些字符对应一个音节,哪些音节是重读音节。例如,“summer”(夏天)这个词应该理解为由两个音节组成,一个是重读的“sum”,另一个是轻读的“mer”。当“深士比亚”在创作四行诗时,语言模型会生成候选诗行,节拍模型则从中选择一个符合五步抑扬格模式的诗行,然后在下一行重复这个过程。
押韵模型也从十四行诗中学习,但它只关注每行最后一个单词的字符。在它的训练过程中,我们告诉模型每个句子的结尾词都应该与四行诗中的另一个词押韵,然后我们让它明白这些词中的哪些词最相似,因此最有可能押韵。以前面引用的莎士比亚十四行诗为例,押韵模型判断“day”(一天)和“May”(五月)的“押韵”分数很高,“temperate”(温存)和“date”(约会)的分数也很高。
“深士比亚”经过训练并做好了创作的准备后,我们给了它3种不同的押韵模板进行选择:AABB,ABBA以及莎士比亚十四行诗中最典型的ABAB。在写作过程中,“深士比亚”首先随机选择其中一个模板。然后语言模型开始逐字逐句地生成诗行;当写到一个应该押韵的词时,它便将候选词提交给押韵模型。
以下是“深士比亚”生成的两首四行诗示例。第一首展示了一个稍微经过训练的模型,它刚开始掌握押韵,但还没有找到节拍,而且所作诗句没有太大意义。
by complex grief's petty nurse. had wise upon along
came all me’s beauty, except a nymph of song
to be in the prospect, he th of forms i join
and long in the hears and must can god to run
第二首四行诗展示了一个最近刚完成训练的模型所取得的进步。它的韵律(ABBA格式)是正确的,掌握了五步抑扬格,而且它的语言不仅连贯还相当具有诗意。
shall i behold him in his cloudy state
for just but tempteth me to stop and pray
a cry: if it will drag me, find no way
from pardon to him, who will stand and wait在评估“深士比亚”的诗歌输出时,我们首先要进行检查,确定它并没有从训练数据中复制句子。我们发现,它生成的诗歌中的词组与训练数据中的词组并没有太多重叠,因此我们确信,“深士比亚”不仅是在记忆现有的十四行诗,而是在进行诗歌原创。
但一首原创的十四行诗未必是一首好的十四行诗。为了评估“深士比亚”四行诗的质量,我们与两类评估人员合作。第一类评估人员是通过亚马逊的土耳其机器人(Mechanical Turk)平台雇用的众包人员,他们基本掌握了英语,但没有诗歌方面的专业知识。我们向他们提供了两首四行诗,一首是人类创作的,另一首是机器生成的,让他们猜猜哪首是人类创作的。
我们对最初的结果感到非常失望。当我们第一次发布任务时,众包人员几乎完全准确地识别出了人类创作的十四行诗。我们的研究道路似乎到头了,因为结果表明,机器生成的诗显然不符合标准。
后来,我们想到了出现这种结果的另一层原因:众包人员作弊了。由于我们使用的人类创作的诗歌是从古登堡计划中选取的(该项目中的所有文本都可以在线索引和搜索),我们怀疑这些众包人员可能复制了诗歌文本并在线搜索。于是我们自己进行了测试,的确如此:人类创作的诗歌总能返回一些搜索结果,这样在猜测中取得完全准确的结果就没有什么意义了。
为了防止众包人员作弊,我们把所有诗歌的文本都转换成图像,然后再次发布评估任务。瞧,众包人员的准确率从近100%下降到了50%左右,这表明他们无法可靠地分辨人类创作的诗和机器生成的诗。虽然众包人员仍然可以在谷歌搜索栏中手动输入诗歌文本,但这一过程显然需要付出太多精力。
我们的另一位评估人员是本文的作者之一亚当•哈蒙德(Adam Hammond),多伦多大学的文学助理教授。与众包实验不同的是,这次评估不涉及猜迷游戏,而是由哈蒙德拿到随机混合的由人创作的十四行诗和机器生成的十四行诗,然后从4个方面对每首诗进行打分:押韵、节拍、可读性和情感影响力。
在押韵和节拍方面,哈蒙德给“深士比亚”的四行诗打出了非常高的分数。事实上,机器诗歌在这些方面得到的分数要高于人类创作的十四行诗。哈蒙德对这样的结果并不吃惊,他解释说,人类诗人常常为达到某种效果而打破规则。但在可读性和情感影响力方面,哈蒙德判定机器生成的十四行诗明显逊色。这位文学专家能够轻松分辨哪些诗是“深士比亚”生成的。
━━━━
这个项目最有意思的部分是它引起的反应。在我们在2018年的计算语言学会议上发表论文后不久,世界各地的新闻媒体都开始关注这件事。许多文章引用了下面这首四行诗作为证据来证明“深士比亚”能像人类一样创作诗歌:
With joyous gambols gay and still array,
no longer when he'twas, while in his day
at first to pass in all delightful ways
around him, charming, and of all his days.
当哈蒙德在BBC电台接受采访时,主持人大声朗读了这首四行诗并请哈蒙德进行解释。哈蒙德在回答时反问主持人是否注意到这首四行诗有一个明显的语法错误:“he' twas”是无意义短语“he it was”的缩写。主持人的回答表明她没有注意到。
为了叹服于AI创造的奇迹而情愿忽略明显的错误,社会科学家雪莉•特克尔(Sherry Turkle)将这一现象命名为“伊莉莎效应”(Eliza effect),可追溯到最早的基于文本的AI实验。20世纪60年代,麻省理工学院的计算机科学家约瑟夫•魏泽鲍姆(Joseph Weizenbaum)开发出了第一台聊天机器人伊莉莎,模仿的是心理治疗师的对话风格。虽然这个程序比较粗糙,而且很容易暴露它的局限性,但魏泽鲍姆震惊地发现,用户如此轻易地接受了他开发的机器人。特克尔是20世纪70年代魏泽鲍姆在麻省理工学院的同事,她注意到,即便是了解伊丽莎局限性的研究生,也表示它能够像人一样回答问题。
伊莉莎效应被特克尔定义为“数字幻想中的人类同谋”,似乎也适用于大众对“深士比亚”的反应。大众如此希望这首四行诗能够展示AI的能力,以至于忽视了反面的证据。
随着“深士比亚”的能力越来越强,这种对AI的有意误解可能会越来越成问题。我们还在继续这项研究,我们的目标之一是提高AI诗人在可读性和情感影响力方面的分数。为了提高整体连贯性,可能会采取一种策略,用一个非常大的文本语料库(例如整个维基百科)对语言模型进行“预训练”,以便让它更好地掌握在一篇长叙述中,哪些单词可能一起出现;这样可以得到一个综合的语言模型,再对其进行十四行诗语言方面的特殊训练。
我们也在思考人类诗人是如何创作的:诗人不会坐在书桌前想,“呃,我的第一个词应该是什么?”然后,在做出这个艰难决定之后,再思考第二个词。相反,诗人先在脑海中有了一个主题或故事,然后寻找词语来表达这个思想。我们已经朝着这个方向迈出了一步,让“深士比亚”具有根据一个特定主题(比如爱或失去)创作一首诗的能力。紧跟一个主题可能会提高四行诗的连贯性和连续性;但模型的词汇选择将受到限制,因为它将学习哪些单词适合给定的主题。我们还计划试验一个多层次化的语言模型,模型首先对诗歌生成一个高级故事,然后利用这个框架生成各个词汇。
当然,这是一个宏伟的目标。即便比不了莎士比亚,我们也希望“深士比亚”能够像莎士比亚诗句形容的那样:
He had the dialect and different skill,
(他有丰富的语调和不同技巧,)
Catching all passions in his craft of will.
(能随心所欲让所有的人倾倒。)
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢