Prompt-prompted Mixture of Experts for Efficient LLM Generation

2024年04月01日
  • 简介
    随着基于Transformer的大型语言模型(LLM)的发展,由于其卓越的实用性,它们已经被应用于许多领域,但这也导致了在部署时相当大的计算成本。幸运的是,一些方法,如剪枝或构建专家混合(MoE),旨在利用Transformer前馈(FF)块中的稀疏性以获得速度提升和内存需求减少。然而,这些技术在实践中可能非常昂贵和不灵活,因为它们通常需要训练或仅限于特定类型的架构。为了解决这个问题,我们介绍了GRIFFIN,这是一种新颖的无需训练的MoE,它在序列级别上选择唯一的FF专家,以在具有不同非ReLU激活函数的众多LLM中实现高效生成。这是可能的,因为我们做出了一个关键的观察,即许多经过训练的LLM在序列内自然产生高度结构化的FF激活模式,我们称之为flocking。尽管我们的方法非常简单,但我们证明,在FF参数的50%的情况下,GRIFFIN在各种分类和生成任务上保持了原始模型的性能,并且几乎没有降级,同时提高了延迟(例如,在NVIDIA L40上,在Llama 2 13B中加速1.25倍)。代码将在https://github.com/hdong920/GRIFFIN上提供。
  • 图表
  • 解决问题
    本文旨在提出一种新的训练-free 的 MoE 方法 GRIFFIN,以在各种 LLMs 中实现高效的生成,同时降低计算成本和内存要求。
  • 关键思路
    GRIFFIN 是一种训练-free 的 MoE 方法,通过在序列级别上选择唯一的 FF 专家来实现高效的生成,而不需要进行训练或限制特定类型的架构。
  • 其它亮点
    GRIFFIN 方法具有简单性,使用仅 50% 的 FF 参数,仍然可以在各种分类和生成任务中保持原始模型的性能,并提高响应速度。
  • 相关研究
    与此相关的最近研究包括使用剪枝或构建 MoE 等方法来利用转换器 FF 块中的稀疏性以提高速度和降低内存要求的论文。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论