康奈尔大学、DeepMind、Hugging Face联合 | Pretraining Without Attention（无注意力的预训练）

作者：Junxiong Wang , Jing Nathan Yan , Albert Gu等

简介：本文研究无注意的预训练、并实现了更长序列的处理。Transformer对于 NLP 预训练的成功至关重要。已经使用了其他架构，但需要注意层来匹配基准精度。这项工作探索了无需注意的预训练。作者测试了最近开发的基于状态空间模型 (SSM) 的路由层和基于乘法门控的模型架构。这些建模选择一起使用会对预训练准确性产生很大影响。根据经验，拟议的双向门控 SSM (BiGS) 无需注意即可复制 BERT 预训练结果，并且在无需近似的情况下：可以扩展到 4096 个令牌的长格式预训练。

论文下载：https://arxiv.org/pdf/2212.10544.pdf