LinguaLinked: A Distributed Large Language Model Inference System for Mobile Devices

2023年12月01日
  • 简介
    本文介绍了LinguaLinked系统,它是一个用于在移动设备上进行分布式、去中心化的大型语言模型推理的系统。由于大型语言模型需要大量内存,因此在移动设备上部署这些模型是一个巨大的挑战。LinguaLinked通过在多个可信设备之间协同执行推理任务来解决这个问题,同时确保数据隐私通过在本地处理信息。LinguaLinked使用了三个关键策略:优化的模型分配技术、优化的数据传输机制和运行时负载均衡器。优化的模型分配技术通过将大型语言模型分段并使用线性优化来将模型段与每个设备的能力对齐。优化的数据传输机制确保了模型段之间的高效和结构化的数据流,同时保持了原始模型结构的完整性。最后,LinguaLinked包含一个运行时负载均衡器,它可以主动监视和重新分配移动设备之间的任务,以防止瓶颈,提高系统的整体效率和响应能力。我们通过在各种移动设备上进行广泛测试,从高端到低端的Android设备,证明了LinguaLinked可以在保持一致吞吐量和最小延迟的同时实现高效的大型语言模型推理。在我们的评估中,与基线相比,LinguaLinked在单线程设置下实现了$1.11\times$到$1.61\times$的推理性能加速,在多线程设置下实现了$1.73\times$到$2.65\times$的加速。此外,运行时负载平衡产生了$1.29\times$到$1.32\times$的总体推理加速。
  • 图表
  • 解决问题
    在移动设备上部署大型语言模型(LLMs)需要大量内存,这篇论文试图解决这个问题。
  • 关键思路
    LinguaLinked是一个分散、分布式的LLM推理系统,允许多个可信设备协同执行推理任务,通过优化模型分配、数据传输和运行时负载平衡来提高系统效率和响应速度。
  • 其它亮点
    LinguaLinked通过在多个移动设备之间分配任务并在本地处理信息来确保数据隐私。实验结果表明,LinguaLinked在不同移动设备上都能够实现高效的LLM推理,相比基准测试具有更快的推理速度和更高的效率。
  • 相关研究
    近期的相关研究包括“MobileBERT: A Compact Task-Agnostic BERT for Resource-Limited Devices”和“TinyBERT: Distilling BERT for Natural Language Understanding”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论