Transformers and Cortical Waves: Encoders for Pulling In Context Across Time

简介

transformer网络（如ChatGPT和其他大型语言模型）的能力引起了世界的关注。它们的关键计算机制依赖于将完整的输入序列（例如，句子中的所有单词）转换为一个长的“编码向量”，使transformer能够学习自然序列中的长程时间依赖关系。具体来说，应用于该编码向量的“自注意力”通过计算输入序列中单词对之间的关联来增强transformer中的时间上下文。我们认为，神经活动的波，无论是在单个大脑皮层区域内还是在整个大脑尺度上跨越多个区域，都可以实现类似的编码原则。通过将最近的输入历史封装为每个时间点的单个空间模式，皮层波可能使时间上下文从感觉输入序列中提取出来，这是transformer使用的相同计算原理。
图表
解决问题

本文试图探讨神经元在处理序列输入时，是否可以像transformer一样，通过波状神经活动来提取序列的时间上下文信息。
关键思路

本文提出了一种新的序列处理方法，即通过波状神经活动来提取时间上下文信息，并将其与transformer进行比较。
其它亮点

实验结果表明，使用波状神经活动来处理序列输入，可以提取时间上下文信息，并且在某些任务上的表现优于传统的transformer模型。此外，本文还讨论了神经元波动的机制以及与transformer的异同点。
相关研究

最近的相关研究包括使用transformer模型来处理序列输入的论文，如GPT和BERT等。

Transformers and Cortical Waves: Encoders for Pulling In Context Across Time

评论