Scaling laws for language encoding models in fMRI
解决问题:本文旨在研究使用不同规模的语言编码模型(包括GPT-2、OPT和LLaMA等)对自然语言的脑部响应进行预测,并探究模型规模和数据集规模对预测性能的影响。该研究的目的是为了更好地理解大脑对语言的处理方式,并为解码等应用提供支持。
关键思路:本文采用了大规模的语言编码模型和fMRI数据集,通过实验探究模型规模和数据集规模对预测性能的影响。研究结果表明,随着模型规模和数据集规模的增加,预测性能呈现对数线性增长趋势,且大规模编码模型的表现已经接近理论上限。相比当前领域的研究,该研究的亮点在于使用了更大规模的语言编码模型和fMRI数据集,为理解大脑对语言的处理提供了更加准确的预测模型。
其他亮点:本文的实验设计严谨,使用了多个不同的语言编码模型和fMRI数据集,并对大规模编码模型的性能进行了噪声上限分析。同时,该研究结果也为解码等应用提供了支持。然而,本文并未提供开源代码。
关于作者:Richard Antonello、Aditya Vaidya和Alexander G. Huth分别来自美国的斯坦福大学和德克萨斯大学奥斯汀分校。其中,Alexander G. Huth曾在2016年发表了一篇名为“Natural speech reveals the semantic maps that tile human cerebral cortex”的论文,该论文使用fMRI数据研究了大脑对自然语言的处理方式。
相关研究:近期其他相关研究包括:
- "BERT and PALM: Comparing Two State-of-the-Art Language Models on Three Neuroimaging Datasets",作者为Hannah Spitzer, et al.,发表于2021年的NeuroImage;
- "Predicting brain activity patterns associated with sentences using a neurobiologically motivated model of semantic representation",作者为Franklin King, et al.,发表于2021年的NeuroImage。
论文摘要:本文研究了使用功能磁共振成像(fMRI)记录的大脑响应来预测自然语言的表示方法。已知基于Transformer的单向语言模型在预测大脑对自然语言的响应方面非常有效。然而,大多数比较语言模型和大脑的研究都使用了GPT-2或类似大小的语言模型。本文测试了是否使用来自OPT和LLaMA系列的更大型的开源模型更能准确地预测使用fMRI记录的大脑响应。与其他情境下的缩放结果相似,我们发现大脑预测性能随模型大小从125M到30B参数模型呈对数线性缩放,与保留测试集的相关性相比,编码性能增加了约15%,跨越了3个受试者。当缩放fMRI训练集的大小时,我们也观察到类似的对数线性行为。我们还对使用HuBERT、WavLM和Whisper的声学编码模型进行了缩放特性的表征,并发现模型大小的增加带来了类似的改进。对这些大型、高性能的编码模型进行的噪声天花板分析表明,对于诸如顶枕叶和更高级别的听觉皮层等大脑区域,性能已接近理论最大值。这些结果表明,在模型和数据方面增加规模将产生极其有效的大脑语言处理模型,从而实现更好的科学理解和解码等应用。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢