- 简介在上下文学习(ICL)中,现在是监督大型语言模型(LLMs)的常见方法:在输入上下文中给出标记的示例,LLM学习执行任务而无需进行权重更新。尽管ICL普遍存在且实用,但我们对于以这种方式监督的模型是否代表其任务的基础结构知之甚少,而不是表面启发式,只能推广到完全相同的分布示例。在这项研究中,我们通过敏感性语法这个测试案例,调查了通过ICL监督的LLMs的稳健性,这是稳健语言理解的先决条件。我们的实验基于两个简单且受控制的句法转换任务,其中正确的超出分布泛化需要对输入进行准确的句法分析。我们进一步研究了是否可以通过思维链提示来改善超出分布泛化,其中模型提供了一系列中间计算步骤,说明应该如何执行任务。在来自GPT、PaLM和Llama 2家族的模型的实验中,我们发现在这个基本的语言现象上LLMs之间存在很大的差异,而这种差异更多地是由预训练语料库和监督方法的组合所解释,而不是模型大小。特别是,我们发现代码预训练的模型更好地推广,而且更受思维链提示的好处。
- 图表
- 解决问题研究ICL方法对LLMs的监督对语法敏感性的影响,以验证ICL方法是否能够使模型学习任务的基础结构而不是表面启发式规则。
- 关键思路通过两个简单的句法转换任务来测试模型的鲁棒性,发现模型的差异更多取决于预训练语料库和监督方法的组成,而不是模型大小。同时,研究发现在代码预训练语料库上预训练的模型更具有泛化能力,并且更容易从chain-of-thought提示中受益。
- 其它亮点实验结果显示,ICL方法对LLMs的监督存在很大的差异性,且差异性主要取决于预训练语料库和监督方法的组成。同时,研究发现在代码预训练语料库上预训练的模型更具有泛化能力,并且更容易从chain-of-thought提示中受益。
- 最近的相关研究包括:1.《Large-scale Language Model Parameter Estimation with Measured Data》;2.《On the (Non-)Utility of Structural Knowledge for Document-Level NLU Tasks》;3.《What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics》等。


提问交流