作者:Junxiong Wang , Jing Nathan Yan , Albert Gu等

简介:本文研究无注意的预训练、并实现了更长序列的处理。Transformer对于 NLP 预训练的成功至关重要。已经使用了其他架构,但需要注意层来匹配基准精度。这项工作探索了无需注意的预训练。作者测试了最近开发的基于状态空间模型 (SSM) 的路由层和基于乘法门控的模型架构。这些建模选择一起使用会对预训练准确性产生很大影响。根据经验,拟议的双向门控 SSM (BiGS) 无需注意即可复制 BERT 预训练结果,并且在无需近似的情况下:可以扩展到 4096 个令牌的长格式预训练 。

 

论文下载:https://arxiv.org/pdf/2212.10544.pdf