HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full Context Interaction

2024年01月31日
  • 简介
    自注意力机制利用大型隐式权重矩阵,通过基于点积的激活函数编程,使用极少可训练参数来实现长序列建模。本文研究了通过采用大型隐式核在网络的每一层实现完全上下文交互,从而放弃残差学习的可能性。为了实现这一目标,我们引入了基于坐标的隐式MLP作为慢速网络,用于生成另一个快速卷积网络的超核。为了获得快速动态编码的上下文变化权重,我们提出了一个$\mathrm{Hyper}\mathcal{Z{\cdot}Z{\cdot}W}$操作符,它通过简单的逐元素乘法将超核($\mathcal{W}$)和隐藏激活($\mathcal{Z}$)相连,然后使用上下文相关的$\mathcal{W}$对$\mathcal{Z}$进行卷积。基于这个设计,我们提出了一个新的终止器架构,它集成了不同大小的超核,以产生多分支隐藏表示,增强每一层的特征提取能力。此外,我们使用瓶颈层来压缩连接通道,只允许有价值的信息传播到后续层。值得注意的是,我们的模型包含多个创新组件,表现出优秀的性能,例如引入局部反馈误差来更新慢速网络、稳定的零均值特征、更快的训练收敛和更少的模型参数。在像素级1D和2D图像分类基准测试上的广泛实验结果证明了我们架构的优越性能。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在探索利用大型隐式核函数实现全上下文交互,以代替残差学习,从而提高网络的长序列建模能力。
  • 关键思路
    通过引入基于坐标的隐式MLPs作为慢速网络,生成另一个快速卷积网络的超级核,以实现每层网络的完全上下文交互。同时,提出了一个新的Terminator架构,将不同大小的超级核集成到多个隐藏表示中,以增强每层的特征提取能力。
  • 其它亮点
    本论文提出了一种新的神经网络架构,具有以下优点:引入本地反馈误差以更新慢速网络、稳定的零均值特征、更快的训练收敛速度和更少的模型参数。在像素级1D和2D图像分类基准上进行了广泛的实验,证明了该架构的卓越性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《Attention Is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问