- 简介本文介绍了PowerInfer-2,这是一个专门为智能手机上的大型语言模型(LLMs)设计的高速推理框架,特别适用于模型大小超过设备内存容量的情况。PowerInfer-2的关键洞察力在于通过将传统的矩阵计算分解为细粒度的神经元簇计算,利用智能手机中的异构计算、内存和I/O资源。具体而言,PowerInfer-2具有一个多态神经元引擎,为LLM推理的各个阶段适应计算策略。此外,它引入了分段神经元缓存和细粒度神经元簇级流水线技术,有效地最小化和隐藏由I/O操作引起的开销。PowerInfer-2的实现和评估展示了其支持多种LLM模型的能力,在两个智能手机上实现了与最先进的框架相比高达29.2倍的速度提升。值得注意的是,PowerInfer-2是第一个在智能手机上为TurboSparse-Mixtral-47B模型提供11.68个标记每秒生成速率的系统。对于完全适合内存的模型,PowerInfer-2可以实现约40%的内存使用减少,同时保持与llama.cpp和MLC-LLM相当的推理速度。欲了解更多详细信息,包括演示视频,请访问项目网站www.powerinfer.ai/v2。
- 图表
- 解决问题PowerInfer-2旨在解决在智能手机上进行大型语言模型推理时,模型大小超过设备内存容量的问题。
- 关键思路PowerInfer-2利用智能手机的异构计算、内存和I/O资源,通过将传统的矩阵计算分解成细粒度的神经元簇计算来实现高速推理。它还引入了多态神经元引擎、分段神经元缓存和细粒度神经元簇级流水线,有效地减少和隐藏了I/O操作造成的开销。
- 其它亮点PowerInfer-2可以支持广泛的LLM模型,在两个智能手机上实现了高达29.2倍的速度提升。对于完全适合内存的模型,PowerInfer-2可以实现大约40%的内存使用减少,同时保持与llama.cpp和MLC-LLM相当的推理速度。PowerInfer-2是第一个在智能手机上为TurboSparse-Mixtral-47B模型提供11.68个标记每秒的生成速率的系统。
- 与此相关的研究包括LLM模型在移动设备上的推理加速,如TFLite、NNAPI和MLC-LLM等。
沙发等你来抢
去评论
评论
沙发等你来抢