LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

简介

现代大型语言模型（LLMs）在解决自然语言处理、复杂推理、情感分析和其他任务方面的能力非常出色，这促使它们得到了广泛的应用。不幸的是，这些能力带来了非常高的内存和计算成本，这使得LLMs不能在大多数硬件平台上使用。为了缓解这种情况，我们提出了一种有效的方法，使用一次性NAS来找到基于LLaMA2-7B的帕累托最优网络架构。具体而言，我们只对LLaMA2-7B进行一次微调，然后应用基于遗传算法的搜索来找到更小、计算复杂度更低的网络架构。我们展示了对于某些标准基准任务，预训练的LLaMA2-7B网络是不必要的大和复杂的。更具体地说，我们证明了在某些任务中，模型大小减少了1.5倍，吞吐量提高了1.3倍，而准确度几乎没有下降。除了找到更小、更高性能的网络架构，我们的方法比某些剪枝或稀疏化技术更有效和高效地实现了这一点。最后，我们展示了量化如何与我们的方法互补，我们找到的网络的大小和复杂度可以进一步减小。我们相信我们的工作提供了一种自动创建LLMs的方法，可以在更便宜、更容易获得的硬件平台上使用。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

自动创建适用于低成本硬件平台的LLMs
关键思路

使用一次微调和基于遗传算法的搜索找到更小、更简单的网络架构
其它亮点

通过遗传算法找到的网络架构在某些任务上比预训练的LLaMA2-7B网络更小、更快，而且精度损失很小；使用量化可以进一步降低网络的大小和复杂性；实验结果表明，该方法比某些剪枝或稀疏化技术更有效和高效。
相关研究

最近的相关研究包括：《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》、《Once-for-All: Train One Network and Specialize it for Efficient Deployment》、《ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware》等。

LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

提问交流

提问交流