来源:MIT科技新闻 链接:点击原文 许多似乎理解语言并且在一组常见的理解任务中得分高于人类的AI并不会注意到句子中的单词混杂时的情况,这表明它们根本不真正理解语言。问题在于如何训练自然语言处理(NLP)系统。它还指出了使它们变得更好的方法。

阿拉巴马州奥本大学(Auburn University)的研究人员和Adobe Research在试图获取NLP系统以对其行为进行解释时发现了该缺陷,例如为什么声称不同句子含义相同。当他们测试他们的方法时,他们意识到句子中混排单词对解释没有影响。“这是所有NLP模型的普遍问题,”负责这项工作的奥本大学的Anh Nguyen说。

该团队研究了几种基于BERT的最新NLP系统(由Google开发的语言模型,该语言模型支持许多最新系统,包括GPT-3)。所有这些系统在GLUE(通用语言理解评估)上的得分都高于人类,GLUE是一套旨在测试语言理解能力的标准任务,例如发现释义,判断句子表达的是正面还是负面的情绪以及言语推理。

男人咬狗:他们发现这些系统无法分辨句子中的单词何时混乱,即使新的顺序改变了含义。例如,系统正确地发现句子“大麻会致癌吗?” 和“抽大麻如何使您患上肺癌?” 是释义。但是他们甚至更加确定“您吸烟会给大麻肺带来怎样的癌症?” 和“肺部吸烟可以使大麻患癌症吗?” 意思也一样。该系统还确定了具有相反含义的句子,例如“大麻是否会致癌?” 和“癌症会引起大麻吗?” —在问同样的问题。

单词顺序重要的唯一任务是其中的模型必须检查句子的语法结构的任务。否则,当单词被随机播放时,被测系统的75%至90%的答案不会改变。

这是怎么回事?这些模型似乎以句子中的几个关键词出现,无论它们按什么顺序出现。它们都不像我们那样理解语言,并且GLUE(一种非常流行的基准)不能衡量语言的真实使用。在许多情况下,训练模型的任务通常不会迫使其关心单词顺序或语法。换句话说,GLUE教导NLP模型跳过障碍。

许多研究人员已经开始使用一套更严格的测试方法,称为SuperGLUE,但是Nguyen怀疑它会遇到类似的问题。

Yoshua Bengio及其同事也发现了此问题,他们发现对话中的单词重新排序有时不会改变聊天机器人的响应。来自Facebook AI Research的一个团队发现了中国人发生的例子。Nguyen的团队表明问题很普遍。

有关系吗?这取决于应用程序。一方面,仍然有用的AI会有用,它可以帮助您识别打字错误或说出乱码,就像其他人一样。但总的来说,在理解句子含义时,单词顺序至关重要。

修复它如何?好消息是它可能不太难修复。研究人员发现,通过训练模型完成单词顺序重要的任务(例如发现语法错误),迫使模型专注于单词顺序,也可以使模型在其他任务上的表现更好。这表明调整模型训练后的任务可以使它们总体上更好。

Nguyen的结果又是一个例子,说明模型通常远远低于人们认为的能力。他认为这凸显了使AI像人类一样理解和推理的难度。

内容中包含的图片若涉及版权问题,请及时与我们联系删除