DRUGAI
今天为大家介绍的是来自美国哈佛医学院Ziv M. Williams和Sydney S. Cash团队的一篇论文。通过对话,人类进行着复杂的言语产生和理解交替过程来进行交流。然而,这些互补过程背后的神经机制,即语言如何精确传递信息的机制,仍然知之甚少。在本研究中,作者将预训练的深度学习自然语言处理模型与颅内神经元记录相结合,发现了在个体之间自然对话过程中可靠反映言语产生、理解及其转换的神经信号。作者的研究结果表明,反映言语产生和理解的神经活动广泛分布在额颞区域的多个频带中。作者还发现,这些活动与所传达的词语和句子具有特异性,并且取决于词语的特定上下文和顺序。最后,作者证明了这些神经模式在语言产生和理解过程中部分重叠,并且听者-说话者之间的转换与特定的、时间对齐的神经活动变化相关联。总的来说,作者的发现揭示了在自然对话中支持语言产生和理解的神经活动的动态组织,并利用深度学习模型来理解人类语言背后的神经机制。

自然对话是人类交流的基本模式,它不仅允许我们传递信息,还能从语言中获取复杂信息。这一核心过程涉及两种不同但互补的语言计算之间的频繁转换:理解和产生。言语理解涉及一系列结构化的过程,从声学-语音信号中提取信息,使我们能够理解句子的含义,以及理解所传达的主题和上下文信息。相比之下,言语产生计划涉及一个相反的过程,即将高阶概念信息转换为构音的运动计划特征。这些过程对于在对话中传递信息是必要的,而对话通常每隔几秒钟就会在说话者之间快速交替,包括提取含义的过程以及计划和产生自己的语言输出。
基于人工深度学习神经网络的自然语言处理(NLP)模型的最新进展,为研究连续、自然的语言交互提供了一个前景广阔的平台。这些模型已被证明在与人类的对话中展示出高水平的表现互动,并且能够在基于理解的任务和问答中达到最先进的基准。这些模型能够通过使用向量的分层结构捕捉特定的词序列及其在短语和句子中的组成。通过提供语言的结构化表示,这些模型可能为语言内容和记录的神经活动之间提供关键联系。实际上,NLP模型在解释被动聆听期间的大脑活动方面也表现出高性能,表明它们有能力表征神经生物学活动和机制。例如,最近的研究表明,模型与人脑之间存在共享的上下文空间和相似的几何模式,有助于交流,其中模型的中间和高层为神经活动提供了最佳解释力。通过这种方式,这种方法提供了一种可量化的方法来研究语言产生和理解,而不考虑参与者使用的特定词语和句子。
在这里,作者利用这些模型作为自然对话中语言的人工、分层结构向量化表示。这种方法使作者能够研究大脑处理对话上下文中整个词序列的神经基础,将其作为一个过程,而不是将其分解为小的组件部分。此外,通过检查神经通道活动与NLP嵌入之间的相关性,作者旨在识别特别涉及编码语言相关信息的脑区。尽管语言内容存在差异,这种方法使作者能够探索特定的词序列及其组合语义和上下文特征在说话和聆听过程中如何在大脑中表示。
自然对话中的神经记录

图 1
局部场电位(LFP)记录是通过半慢性植入的深部电极获得的,这些电极植入于14名接受癫痫监测的参与者体内,作为其临床护理的一部分(6名女性和8名男性,平均年龄34岁,范围在16至59岁之间,图1a)。总共,作者记录了1910个双极参考通道(图1b)。这些通道跨越了两个半球的共39个脑区。显示低信噪比或频繁癫痫样放电的电极被排除在外(方法)。对于所有记录,LFP被过滤并转换为alpha(8-13 Hz)、beta(13-30)、低gamma(30-55)、中gamma(70-110)和高gamma(130-170)频带的包络。
在记录期间,参与者与实验者进行了大约一小时的无限制、自由流动的对话(范围16-92分钟)。这些对话在主题和主旨上广泛多样,让个体既能倾听也能说话。所有转录的词语都以毫秒级精度与神经活动同步。这些包括产生过程中的2728±1804(平均值±标准差)个词语和理解过程中的3460±2581个词语(图1c)。倾听和说话之间平均有168次转换,这反映了参与个体之间的动态交流。
大脑网络活动模式与基于NLP模型的活动比较
为了量化神经活动在多大程度上反映了对话中传递的信息(例如,而不仅仅是说话或聆听时活动的任何变化),作者采用了一个预训练的GPT-2(小型)模型,该模型能够捕捉大脑活动与所传递的组合词序列相关的变异。重要的是,这个模型提供了以向量化格式访问隐藏嵌入的功能。考虑到记录词语的数量,GPT-2小型模型在作者的分析中被使用。
在这里,模型嵌入(一组分层组织的向量,作为人工"神经"活动)被训练来表示从大量语言语料库中提取的语言特征。当应用于自然对话时,这个模型可以以定量方式对词语和句子组成进行向量化,这可以直接与同步获得的神经数据进行比较(图1d, e)。因此,如果特定脑区的神经活动模式与这些语言模型中人工神经活动得出的活动一致匹配,这将意味着它们的模式携带了被传递的对话的有意义方面。具体来说,作者使用参与者说出或听到的相同词语作为人工模型的输入,并检查跨词语的大脑和模型活动之间的相关性,以阐明参与语言处理的神经活动。
通过追踪自然对话中的LFP信号,作者发现大脑广泛部分的活动变化与NLP模型的活动变化始终一致(图1d-f)。当考虑所有记录接触点和频带时,相关通道在大多数脑区和频带中整体分布广泛,这些通道的比例显著高于偶然预期(卡方检验,统计量= 7785,p < 10^-100)。所有显示显著相关性的通道的R值的平均值和标准差为:说话时为0.12±0.04,聆听时为0.10±0.03(平均值±标准差),这意味着神经活动的变化反映了模型嵌入所捕获的信息。

图 2
总体而言,与右半球相比,左半球区域有更多的通道显示相关活动(左半球n=990,右半球n=920,卡方检验,统计量=1214,p=3.6×10^-266)。此外,在17个植入了大量通道的脑区(n≥25,方法)中,有九个区域显示出显著高比例的通道(p<0.01)与NLP嵌入相关,包括颞叶和额叶皮层、丘脑和边缘系统结构的区域(图2a,b)。因此,在后续图中,作者使用这九个区域进行可视化,以避免颜色重叠。作者还检查了使用GPT-2模型对17个脑区进行Bonferroni校正后多重比较的区域百分比,这在其他NLP模型中显示出一致的响应。具体而言,正如可能预期的那样,在言语产生计划期间,左侧运动前皮层(21%)以及在理解期间,左右侧上颞皮层(分别为23%和25%)显示出最高比例的相关活动通道(图2a)。此外,所有额叶、颞叶和内侧脑区似乎在说话和聆听期间都参与了跨多个频带的神经活动,用于语言编码(图2d)。这些结果和来自所有区域的这些相关通道的一般分布在很大程度上不受惯用手的影响,并且在参与者中保持一致,不受他们的智商或对话长度的影响。如果将白质位置分配给其最近的灰质,或者如果这些白质通道完全被排除(卡方比例检验:说话时统计量=37.7,p=8.2×10^-10;聆听时统计量=127.4,p=1.5×10^-29),这些结果也是稳健的。综合起来,这些发现表明,多样脑区的神经活动,特别是额颞网络,与NLP模型的活动平行,在言语产生和理解过程中,模型捕捉到了相似的词语和句子组成的神经表示。
自然对话中神经-NLP关系的泛化和稳健性
为了进一步确保神经活动与NLP模型嵌入之间的关系是与语言相关的,作者随机置换了词语上的神经活动,以消除偶然获得的任何与语言相关的特征。在随机化并使用来自所有脑区的所有通道时,作者发现显示选择性的接触点比例显著降低(卡方检验,统计量=5002,p<10^-100),并且相关程度显著下降至R=0.02。此外,作者证明,无论转换之间的言语持续时间如何,或使用非参数秩相关,神经-NLP相关性都是稳健的。总之,这些结果证明了自然对话语言过程中神经-NLP关系的稳健性。
其次,作者证明这些来自所有脑区的与NLP相关的活动不能用与低级声音特征的相关性来解释。作者推断,如果观察到的神经-NLP相关性源于响应低级声音特征的神经活动,那么作者预期与NLP相关的通道对声音特征(如语音振幅和音高)的响应会比所有通道(包括那些与NLP不相关的响应)的声音特征响应更高。然而,与NLP相关的通道对语音振幅和音高的响应与所有记录通道相比相似(双边置换检验组合,振幅:说话时p=0.41,聆听时p=0.21;音高:说话时p=0.79,聆听时p=0.60;n=10,000)。
第三,为了确认上述发现具有普遍性,作者将来自所有区域的神经活动模式与另一个在不同数据集上训练的NLP模型进行了比较。在这里,作者使用了具有双向网络架构并在不同语言材料上训练的BERT(基础)模型。再次,作者发现相关通道的比例显著高于偶然性(卡方检验,统计量=15,278,p<10^-100),并且大于或等于GPT-2模型观察到的比例。此外,在具有不同层和架构的一系列NLP模型中观察到类似的发现,相关通道的百分比随NLP模型的大小增加(R>0.80且p<2×10^-3)。这表明大脑中的神经活动模式与语言模型之间的关系是神经元响应的可泛化特性。
第四,作者研究了与自然对话相关的信息在多大程度上不同于在块设计任务中被动听取句子,方法是指导参与者听取句子并重复他们听到的词语。这个任务旨在模拟说话和聆听的格式,但用受限制的材料替代自然对话的自发性。总共,作者对4名参与者(465个通道)进行了这项任务,每位参与者平均听取237±6(平均值±标准差)个词语并说出233±6个词语。接下来,作者计算了在自然对话中显著相关的神经-NLP对的R值(范围0-1)的平均值。作者发现,当参与者被动参与伪对话时,平均相关系数显著下降(言语产生从0.13降至0.09,理解从0.11降至0.07,T检验,两者均p<2×10^-56,图2c)。因此,这些神经特征特别与对话相关,而不是更简单的说话和聆听。
最后,作者对同样的四名参与者进行了"无意义语"控制,这由听起来像词语但不传达实际意义的伪词字符串组成(例如,"Dorty of the pikap incaged a flup of mool.")。因此,即使参与者产生和感知类似的声音特征,他们并没有参与有意义的对话,这使作者能够将简单涉及言语运动和声学-语音成分的神经信号与涉及对话中有意义言语的神经信号区分开来。作者发现,对于理解和产生,对真实句子响应的通道百分比显著高于对无意义语的响应(ANOVA重复测量,自由度数=12,说话时F=34.1,p=0.0043;聆听时F=18.5,p=0.012)。这表明通过对话传达的语言意义对神经处理有显著贡献,表明语言理解和产生的复杂性。
跨频带和NLP层的神经-NLP关系
神经-NLP相关性不仅广泛跨越额叶、颞叶和内侧区域,还占据了多个频带。具体来说,所有脑区中每个频带的相关通道百分比对于理解和产生都始终高于偶然性(每个频率的卡方检验,统计量>13,p<3×10^-4;FDR校正多重频率),对于语言理解和产生,中gamma频率(70-110 Hz)观察到最高百分比(分别为11%和14%,图2d)。此外,这些频率模式对于产生和理解都显示出对脑区的弱依赖性(重复测量ANOVA,自由度数=4,说话时F(32)=2.49,p=0.063,聆听时F(32)=3.3,p=0.02)。例如,在言语产生计划期间,中颞皮层13%的通道在高gamma频带中与NLP嵌入相关,而在前中额皮层只有5%显示类似关系。此外,虽然许多区域在理解期间在中gamma频率中表现出更高百分比的相关通道(例如,在中颞和上颞皮层分别为24%和35%),但其他区域,包括海马和杏仁核,包含更高百分比在alpha频率中具有相关性的通道(分别为12%和10%)。总之,这些发现表明,不仅活动区域广泛,而且与语言处理相关的神经活动频率也很广泛,表明颅内脑电图与非侵入性功能磁共振成像方法相比,具有独特能力表征平行、多尺度神经动态。
对话期间的神经-模型相关性取决于语言模型内的隐藏层。在NLP中,语言处理发生在分层结构中,这些层从大量文本数据中提取统计模式。虽然层次并不直接对应于已知的语言类别,但较低(输入)网络层优先反映独立于上下文的单个词语信息,而中间层捕获更复杂的语言结构,较高(输出)层则反映集成的组合句子级信息。因此,为了进一步检验神经活动模式与NLP模型之间的关系,作者计算了来自所有区域与每个网络层相关的通道百分比,发现神经活动优先与言语计划和理解的高级网络层对齐(说话期间第一和最后6层分别为12%和14%,T检验统计量=-3.2,p=1×10^-3;理解期间分别为14%和18%,统计量=-4.3,p=1.8×10^-5,图2e)。言语产生和理解观察到类似的层依赖模式,输入层中显著通道的百分比较低(言语产生为8%,言语理解为9%),随后逐渐增加,在第8层达到峰值(说话为11%,聆听为13%)。在向输出的更高层,作者观察到随着层数增加,显著通道减少。这种跨层的神经分布与参与者被动聆听与表达他们听到的句子的试验明显不同(重复测量ANOVA,聆听时F(12)=23.3,p=4×10^-4,说话时F(12)=5.6,p=0.036)。此外,特定层分布取决于脑区(重复测量ANOVA,说话时F(96)=4.2,p<1×10^-5;聆听时F(96)=6.7,p<1×10^-5),颞叶的层依赖性高于额叶皮层(颞叶:产生计划期间前六层为11.8%,后六层为15.0%;额叶:9.1%,9.9%)。简言之,大多数神经活动模式可能反映高阶上下文信息,而不是低级早期处理或言语前运动计划。
编译|黄海涛
审稿|王梓旭
参考资料
Cai, J., Hadjinicolaou, A. E., Paulk, A. C., Soper, D. J., Xia, T., Wang, A. F., ... & Cash, S. S. (2025). Natural language processing models reveal neural dynamics of human conversation. Nature Communications, 16(1), 3376.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢