Transformers and Cortical Waves: Encoders for Pulling In Context Across Time

Lyle Muller ,
Patricia S. Churchland ,
Terrence J. Sejnowski
2024年01月25日
  • 简介
    transformer网络(如ChatGPT和其他大型语言模型)的能力引起了世界的关注。它们的关键计算机制依赖于将完整的输入序列(例如,句子中的所有单词)转换为一个长的“编码向量”,使transformer能够学习自然序列中的长程时间依赖关系。具体来说,应用于该编码向量的“自注意力”通过计算输入序列中单词对之间的关联来增强transformer中的时间上下文。我们认为,神经活动的波,无论是在单个大脑皮层区域内还是在整个大脑尺度上跨越多个区域,都可以实现类似的编码原则。通过将最近的输入历史封装为每个时间点的单个空间模式,皮层波可能使时间上下文从感觉输入序列中提取出来,这是transformer使用的相同计算原理。
  • 图表
  • 解决问题
    本文试图探讨神经元在处理序列输入时,是否可以像transformer一样,通过波状神经活动来提取序列的时间上下文信息。
  • 关键思路
    本文提出了一种新的序列处理方法,即通过波状神经活动来提取时间上下文信息,并将其与transformer进行比较。
  • 其它亮点
    实验结果表明,使用波状神经活动来处理序列输入,可以提取时间上下文信息,并且在某些任务上的表现优于传统的transformer模型。此外,本文还讨论了神经元波动的机制以及与transformer的异同点。
  • 相关研究
    最近的相关研究包括使用transformer模型来处理序列输入的论文,如GPT和BERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论