本文介绍了LinguaLinked系统,它是一个用于在移动设备上进行分布式、去中心化的大型语言模型推理的系统。由于大型语言模型需要大量内存,因此在移动设备上部署这些模型是一个巨大的挑战。LinguaLinked通过在多个可信设备之间协同执行推理任务来解决这个问题,同时确保数据隐私通过在本地处理信息。LinguaLinked使用了三个关键策略:优化的模型分配技术、优化的数据传输机制和运行时负载均衡器。优化的模型分配技术通过将大型语言模型分段并使用线性优化来将模型段与每个设备的能力对齐。优化的数据传输机制确保了模型段之间的高效和结构化的数据流,同时保持了原始模型结构的完整性。最后,LinguaLinked包含一个运行时负载均衡器,它可以主动监视和重新分配移动设备之间的任务,以防止瓶颈,提高系统的整体效率和响应能力。我们通过在各种移动设备上进行广泛测试,从高端到低端的Android设备,证明了LinguaLinked可以在保持一致吞吐量和最小延迟的同时实现高效的大型语言模型推理。在我们的评估中,与基线相比,LinguaLinked在单线程设置下实现了$1.11\times$到$1.61\times$的推理性能加速,在多线程设置下实现了$1.73\times$到$2.65\times$的加速。此外,运行时负载平衡产生了$1.29\times$到$1.32\times$的总体推理加速。
提问交流