- 简介现代大型语言模型(LLMs)在解决自然语言处理、复杂推理、情感分析和其他任务方面的能力非常出色,这促使它们得到了广泛的应用。不幸的是,这些能力带来了非常高的内存和计算成本,这使得LLMs不能在大多数硬件平台上使用。为了缓解这种情况,我们提出了一种有效的方法,使用一次性NAS来找到基于LLaMA2-7B的帕累托最优网络架构。具体而言,我们只对LLaMA2-7B进行一次微调,然后应用基于遗传算法的搜索来找到更小、计算复杂度更低的网络架构。我们展示了对于某些标准基准任务,预训练的LLaMA2-7B网络是不必要的大和复杂的。更具体地说,我们证明了在某些任务中,模型大小减少了1.5倍,吞吐量提高了1.3倍,而准确度几乎没有下降。除了找到更小、更高性能的网络架构,我们的方法比某些剪枝或稀疏化技术更有效和高效地实现了这一点。最后,我们展示了量化如何与我们的方法互补,我们找到的网络的大小和复杂度可以进一步减小。我们相信我们的工作提供了一种自动创建LLMs的方法,可以在更便宜、更容易获得的硬件平台上使用。
-
- 图表
- 解决问题自动创建适用于低成本硬件平台的LLMs
- 关键思路使用一次微调和基于遗传算法的搜索找到更小、更简单的网络架构
- 其它亮点通过遗传算法找到的网络架构在某些任务上比预训练的LLaMA2-7B网络更小、更快,而且精度损失很小;使用量化可以进一步降低网络的大小和复杂性;实验结果表明,该方法比某些剪枝或稀疏化技术更有效和高效。
- 最近的相关研究包括:《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》、《Once-for-All: Train One Network and Specialize it for Efficient Deployment》、《ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware》等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流