Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach

简介

本文的研究旨在优化大型语言模型（LLMs）在边缘计算环境中的部署，以增强隐私和计算效率。为了实现在边缘计算中进行高效的无线LLM推断，本研究全面分析了主流开源LLMs中不同分割点的影响。在此基础上，本研究引入了一个框架，该框架受到基于模型的强化学习（MBRL）的启发，以确定跨边缘和用户设备（UE）的最佳分割点。通过结合奖励代理模型，我们的方法显著降低了频繁性能评估的计算成本。广泛的模拟表明，该方法在不同的网络条件下有效地平衡了推断性能和计算负载，为在分散式环境中部署LLM提供了一个强大的解决方案。
图表
解决问题

本论文旨在解决在边缘计算环境中部署大型语言模型（LLMs）的优化问题，以提高隐私和计算效率。
关键思路

论文提出了一种基于模型的强化学习（MBRL）框架，通过引入奖励代理模型，确定跨边缘和用户设备（UE）的最佳分割点，从而有效平衡推理性能和计算负载。
其它亮点

论文对不同分割点在主流开源LLMs中的影响进行了全面分析，并通过使用奖励代理模型显著降低了频繁性能评估的计算成本。通过广泛的模拟，证明了该方法在不同网络条件下有效平衡了推理性能和计算负载，为分散式环境中LLM的部署提供了一个强大的解决方案。
相关研究

最近的相关研究包括：1）《Federated Learning for Wireless Communications: Motivation, Opportunities, and Challenges》；2）《Efficient Edge Computing for Deep Neural Networks: A Survey》；3）《Edge Intelligence: Paving the Last Mile of Artificial Intelligence with Edge Computing》等。

Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach

评论