MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

2024年02月22日
  • 简介
    本文探讨了移动设备上高效大型语言模型(LLMs)的不断增长需求,这是由于云成本和延迟问题的不断增加。我们专注于设计具有不到十亿参数的顶级LLMs,这是移动部署的实际选择。与强调数据和参数数量在确定模型质量方面起关键作用的普遍观点相反,我们的研究强调了模型架构对小于十亿规模的LLMs的重要性。利用深度和纤细的架构,再加上嵌入共享和分组查询注意机制,我们建立了一个强大的基准网络,称为MobileLLM,它比前面的125M / 350M最先进的模型分别提高了2.7%/ 4.3%的准确性。此外,我们提出了一种立即的块内权重共享方法,不增加模型大小,仅有轻微的延迟开销。MobileLLM-LS的结果模型比MobileLLM 125M / 350M进一步提高了0.7%/ 0.8%的准确性。此外,MobileLLM模型系列在聊天基准测试中显示出了与之前的小于十亿模型相比的显着改进,并在API调用任务中展示了与LLaMA-v2 7B接近的正确性,突显了小型模型在常见的设备使用情况下的能力。
  • 图表
  • 解决问题
    论文旨在解决在移动设备上使用高效的大型语言模型(LLMs)的需求,以减少云计算成本和延迟问题。作者专注于设计具有不到十亿个参数的高质量LLMs,这是移动部署的实际选择。
  • 关键思路
    论文的关键思路是,相比于数据和参数数量,模型架构对于小于十亿参数的LLMs的重要性更大。作者利用深度和窄度架构,以及嵌入共享和分组查询注意机制,建立了一个强大的基线网络,称为MobileLLM。
  • 其它亮点
    论文提出了一种无需增加模型大小且仅有轻微延迟开销的立即块权重共享方法,称为MobileLLM-LS。MobileLLM模型家族在聊天基准测试中表现出显着的改进,并在API调用任务中展示出与LLaMA-v2 7B的接近正确性,突出了小型模型在常见的设备使用情况下的能力。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论