Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach

简介

这篇文章探讨了在边缘计算环境中优化大型语言模型（LLMs）部署的重要性，以增强隐私和计算效率。为了实现边缘计算中高效的无线LLM推理，本研究全面分析了主流开源LLMs中不同分割点的影响。在此基础上，本研究引入了一个从模型驱动的强化学习（MBRL）中获得灵感的框架，以确定跨边缘和用户设备（UE）的最佳分割点。通过结合奖励替代模型，我们的方法显著降低了频繁性能评估的计算成本。广泛的模拟表明，这种方法在不同的网络条件下有效地平衡了推理性能和计算负载，为去中心化环境中LLM部署提供了一个强大的解决方案。
图表
解决问题

优化在边缘计算环境中部署大型语言模型的效率和隐私保护问题。
关键思路

使用基于模型的强化学习框架确定边缘和用户设备之间的最佳分割点，通过奖励替代模型显著降低性能评估的计算成本。
其它亮点

论文分析了不同分割点对主流开源LLMs的影响，并提出了一种基于模型的强化学习框架来确定最佳分割点。实验结果表明该方法能够在不同网络条件下有效地平衡推理性能和计算负载，为LLM在分散环境中的部署提供了一个强大的解决方案。
相关研究

最近的相关研究包括《Federated Learning with Non-IID Data in Mobile Edge Networks: A Comprehensive Survey》和《Federated Learning for Edge Devices: A Comprehensive Survey》。

Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach

评论