- 简介大型语言模型(LLMs)表现出与人类语言网络中的神经活动显著相似的特点。然而,塑造类似大脑表征的关键语言属性,以及它们在不同任务训练过程中的演变仍然不清楚。在此,我们对涵盖3000亿个标记的34个训练检查点进行了基准测试,这些检查点横跨8种不同的模型大小,以分析大脑对齐如何与语言能力相关。具体来说,我们发现大脑对齐更紧密地追踪了形式语言能力的发展——即对语言规则的知识——而不是功能语言能力。虽然涉及世界知识和推理的功能能力在整个训练过程中继续发展,但它与大脑对齐的关系较弱,这表明人类语言网络主要编码形式语言结构,而不是更广泛的认知功能。我们进一步表明,在控制特征大小的情况下,模型大小并不是大脑对齐的可靠预测因素,并且发现在模型超过人类语言熟练程度后,下一词预测、行为对齐和大脑对齐之间的相关性逐渐减弱。最后,使用迄今为止最严格的神经语言基准测试集,我们显示语言大脑对齐基准尚未饱和,突显了改进未来模型的机会。综上所述,我们的研究结果表明,人类语言网络最好通过语言的形式方面而非功能方面来建模。
- 图表
- 解决问题该论文试图探讨大型语言模型(LLMs)在训练过程中如何发展出与人类大脑语言网络相似的表示,并且研究这种相似性与不同类型的语言能力(形式和功能语言能力)之间的关系。这并不是一个全新的问题,但它是对现有研究的一个深入扩展,特别是在检查脑对齐如何随训练进展而变化方面。
- 关键思路关键思路在于通过分析34个训练检查点,跨越8种不同规模的模型,在超过300亿个令牌的数据上,研究脑对齐与形式语言能力(如语法规则的知识)的关系更为紧密,而不是与功能语言能力(涉及世界知识和推理)。此外,研究发现模型大小并不是脑对齐的可靠预测因子,并且当模型超越人类语言能力时,某些相关性会减弱。这一思路新颖地强调了形式语言结构的重要性,而非更广泛的认知功能。
- 其它亮点亮点包括:1) 使用了大规模数据集和多种模型尺寸来确保结果的普遍性和可靠性;2) 发现脑对齐更多地反映了形式语言能力的发展,而非功能语言能力;3) 提供了迄今为止最严格的神经语言基准测试集,表明脑对齐基准尚未达到饱和,为未来模型改进提供了机会;4) 研究结果支持了人类语言网络主要编码形式语言结构的观点,这对理解大脑如何处理语言具有重要意义。
- 最近在这个领域中的相关研究还包括:1) 'Neural Mechanisms Underlying Human Language Comprehension',探讨了人类大脑处理语言的具体机制;2) 'Emergent Linguistic Structures in Artificial Neural Networks Trained on Conversation',研究了对话训练中人工神经网络中出现的语言结构;3) 'The Role of Syntax in Neural Language Models',专注于语法在神经语言模型中的作用。这些研究共同推动了我们对语言模型与人类语言处理机制之间关系的理解。


提问交流