- 简介最近的研究表明,相对位置编码在选择性状态空间模型扫描算法中表现良好,平衡SSM和Attention的架构提高了算法的效率和效果,而混合专家的稀疏激活降低了训练成本。我研究了在结构化状态空间双重算法中使用不同位置编码的有效性,以及更有效的SSD-Attn内部和外部函数混合方法,并设计了一个更高效的跨领域混合专家。我发现同一矩阵在不同算法中非常出色,这使我们能够建立一个新的混合稀疏架构:Cheems。与其他混合架构相比,它在语言建模任务中更加高效和有效。
-
- 图表
- 解决问题本文旨在探讨在结构化状态空间双重算法中使用不同位置编码以及SSD-Attn内外函数混合方法的有效性,并设计了一种更高效的跨领域专家混合模型。
- 关键思路本文提出了一种名为Cheems的新型混合稀疏架构,通过平衡SSM和Attention的架构,同时使用稀疏激活的专家混合来降低训练成本,提高算法的效率和效果。
- 其它亮点实验表明,Cheems架构在语言建模任务中比其他混合架构更有效和更高效。论文使用了不同的位置编码和SSD-Attn内外函数混合方法,并设计了更高效的跨领域专家混合模型,为混合稀疏架构的研究提供了新思路。
- 在这个领域中,最近的相关研究包括《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流