Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules

2024年07月09日
  • 简介
    在Transformers中,是否总是需要从浅层到深层计算tokens呢?普通Transformers及其变体的持续成功表明了毫无疑问的“是”。然而,在本文中,我们尝试打破深度顺序约定,提出了一种新颖的架构,称为“模块混合”(MoM),它的动机是任何层都可以用于计算token,只要它具有所需的处理能力。MoM的构建始于由多头注意力和前馈网络定义的有限模块集,每个模块都有其独特的参数化。然后,两个路由器从集合中迭代地选择注意力模块和前馈模块来处理token。该选择在token的前向传递中动态地扩展计算图,最终组装成模块。我们展示了MoM不仅提供了一个统一的框架,用于Transformers及其众多变体,而且还提供了一种灵活且可学习的方法,用于减少Transformer参数化中的冗余。我们使用OpenWebText预训练了各种MoM。实证结果表明,不同参数计数的MoMs在GLUE和XSUM基准测试中始终优于普通Transformers。更有趣的是,在固定参数预算的情况下,MoM-large使计算图的深度比GPT-2-large增加了38%以上,从而在GLUE和XSUM上获得了1.4和1的绝对增益。另一方面,MoM-large还使深度减少了60%以上,同时每层涉及更多的模块,与GPT-2-large相比,TFLOPs减少了16%,内存使用减少了43%,同时保持了可比较的性能。
  • 图表
  • 解决问题
    本文试图挑战Transformer中的深度顺序传递假设,探索一种新的模块化深度学习架构Mixture-of-Modules(MoM)
  • 关键思路
    MoM架构通过动态选择不同的attention模块和前馈网络模块进行计算,从而消除了深度顺序传递假设,并提供了一种灵活可学习的方法来减少Transformer参数化中的冗余
  • 其它亮点
    实验结果表明,MoM架构在GLUE和XSUM基准测试中都优于vanilla Transformer,MoM-large相比GPT-2-large在相同参数预算下增加了38%的计算图深度,同时保持可比性能,MoM-large还使计算图深度降低了60%,同时每层涉及更多的模块,相比GPT-2-large减少了16%的TFLOPs和43%的内存使用
  • 相关研究
    与该论文相关的研究包括Transformer及其变体以及其他模块化深度学习架构,如Sparse Transformers和Performer
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论