大语言模型中语言与思维的分离:一种认知视角

标题:Dissociating language and thought in large language models: a cognitive perspective

链接https://arxiv.org/abs/2301.06627

作者:Kyle Mahowald 1, Anna A. Ivanova 2, Idan A. Blank 3, Nancy Kanwisher 2, Joshua B. Tenenbaum 2, Evelina Fedorenko 2

单位:1 德克萨斯大学奥斯汀分校,2 麻省理工学院,3 加州大学洛杉矶分校

摘要

今天的大型语言模型(LLMs)能够生成连贯的、符合语法的、看起来有意义的文本段落。这一成就导致人们猜测这些网络是(或即将成为)「思维机器」,能够执行需要抽象知识和推理的任务。

在这里,作者通过考虑它们在语言使用的两个不同方面的表现来审查 LLMs 的能力。形式语言能力,包括特定语言的规则和模式的知识,以及功能语言能力,即在现实世界中理解和使用语言所需的一系列认知能力。

利用认知神经科学的证据,作者表明,人类的形式能力依赖于专门的语言处理机制,而功能性能力则需要招募构成人类思维多种语言外能力,如正式推理、世界知识、情境建模和社会认知。根据这一区别,LLMs 在需要形式语言能力的任务中表现出令人深刻(尽管并不完美)的印象,但在许多需要功能能力的测试中却失败了。

基于这些证据,作者认为:

(1)当代的 LLMs 应该被认真视为形式语言技能的模型;

(2)掌握现实生活中语言使用的模型不仅需要纳入或发展一个核心语言模块,还需要纳入建模思维所需的多种非语言特定认知能力。

总的来说,对形式语言能力和功能语言能力的区分有助于澄清围绕 LLMs 潜力的论述,并为建立能以类似人类的方式理解和使用语言的模型提供了一条道路。

内容中包含的图片若涉及版权问题,请及时与我们联系删除