Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach

2024年06月03日
  • 简介
    本文的研究旨在优化大型语言模型(LLMs)在边缘计算环境中的部署,以增强隐私和计算效率。为了实现在边缘计算中进行高效的无线LLM推断,本研究全面分析了主流开源LLMs中不同分割点的影响。在此基础上,本研究引入了一个框架,该框架受到基于模型的强化学习(MBRL)的启发,以确定跨边缘和用户设备(UE)的最佳分割点。通过结合奖励代理模型,我们的方法显著降低了频繁性能评估的计算成本。广泛的模拟表明,该方法在不同的网络条件下有效地平衡了推断性能和计算负载,为在分散式环境中部署LLM提供了一个强大的解决方案。
  • 图表
  • 解决问题
    本论文旨在解决在边缘计算环境中部署大型语言模型(LLMs)的优化问题,以提高隐私和计算效率。
  • 关键思路
    论文提出了一种基于模型的强化学习(MBRL)框架,通过引入奖励代理模型,确定跨边缘和用户设备(UE)的最佳分割点,从而有效平衡推理性能和计算负载。
  • 其它亮点
    论文对不同分割点在主流开源LLMs中的影响进行了全面分析,并通过使用奖励代理模型显著降低了频繁性能评估的计算成本。通过广泛的模拟,证明了该方法在不同网络条件下有效平衡了推理性能和计算负载,为分散式环境中LLM的部署提供了一个强大的解决方案。
  • 相关研究
    最近的相关研究包括:1)《Federated Learning for Wireless Communications: Motivation, Opportunities, and Challenges》;2)《Efficient Edge Computing for Deep Neural Networks: A Survey》;3)《Edge Intelligence: Paving the Last Mile of Artificial Intelligence with Edge Computing》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论