- 简介这篇文章探讨了词汇-句法灵活性,即通过转化(或零派生)的形式,是英语词汇形态学的一个标志。在转化中,一个具有一种词性的单词被放置在一个非典型的上下文中,被迫表现得像具有不同词性的单词一样。然而,虽然这个过程影响了英语词汇的很大一部分,但很少有研究去确定语言模型捕捉到这种类型的概括的程度。本文报道了第一项关于大型语言模型在转化方面行为的研究。我们设计了一个测试词汇-句法灵活性的任务——模型能够在非典型的词性构造中推广单词的程度。这个任务是在自然语言推理范式内进行的。我们测试了五个语言模型的能力——两个专有模型(GPT-3.5和GPT-4),三个开源模型(Mistral 7B,Falcon 40B和Llama 2 70B)。我们发现GPT-4在这个任务中表现最好,其次是GPT-3.5,但开源语言模型也能够执行它,并且7B参数的Mistral在自然语言推理任务和非典型句法类别任务的基线性能之间几乎没有差异,就像庞大的GPT-4一样。
- 图表
- 解决问题本文旨在测试大型语言模型在词类转换问题上的表现,以及它们对于非典型句法结构的泛化能力。这是否是一个新问题?
- 关键思路本文设计了一个基于自然语言推理的任务来测试词汇-句法灵活性,即模型是否能够在非典型句法结构中泛化词汇的词类。本文测试了五个语言模型的表现,发现GPT-4表现最佳,但开源语言模型也能够完成任务。
- 其它亮点本文的实验任务是基于自然语言推理的,使用了多个数据集进行测试。除了GPT-4表现最佳,开源语言模型也能够完成任务。本文的结果表明,大型语言模型具有一定的词汇-句法灵活性。此外,本文还提出了一些值得进一步研究的问题,如何提高模型在非典型句法结构中的泛化能力等。
- 最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。
沙发等你来抢
去评论
评论
沙发等你来抢