Prompt-prompted Mixture of Experts for Efficient LLM Generation

简介

随着基于Transformer的大型语言模型（LLM）的发展，由于其卓越的实用性，它们已经被应用于许多领域，但这也导致了在部署时相当大的计算成本。幸运的是，一些方法，如剪枝或构建专家混合（MoE），旨在利用Transformer前馈（FF）块中的稀疏性以获得速度提升和内存需求减少。然而，这些技术在实践中可能非常昂贵和不灵活，因为它们通常需要训练或仅限于特定类型的架构。为了解决这个问题，我们介绍了GRIFFIN，这是一种新颖的无需训练的MoE，它在序列级别上选择唯一的FF专家，以在具有不同非ReLU激活函数的众多LLM中实现高效生成。这是可能的，因为我们做出了一个关键的观察，即许多经过训练的LLM在序列内自然产生高度结构化的FF激活模式，我们称之为flocking。尽管我们的方法非常简单，但我们证明，在FF参数的50％的情况下，GRIFFIN在各种分类和生成任务上保持了原始模型的性能，并且几乎没有降级，同时提高了延迟（例如，在NVIDIA L40上，在Llama 2 13B中加速1.25倍）。代码将在https://github.com/hdong920/GRIFFIN上提供。
图表
解决问题

本文旨在提出一种新的训练-free 的 MoE 方法 GRIFFIN，以在各种 LLMs 中实现高效的生成，同时降低计算成本和内存要求。
关键思路

GRIFFIN 是一种训练-free 的 MoE 方法，通过在序列级别上选择唯一的 FF 专家来实现高效的生成，而不需要进行训练或限制特定类型的架构。
其它亮点

GRIFFIN 方法具有简单性，使用仅 50% 的 FF 参数，仍然可以在各种分类和生成任务中保持原始模型的性能，并提高响应速度。
相关研究

与此相关的最近研究包括使用剪枝或构建 MoE 等方法来利用转换器 FF 块中的稀疏性以提高速度和降低内存要求的论文。

Prompt-prompted Mixture of Experts for Efficient LLM Generation

评论