- 简介大型语言模型(LLMs)可以通过增强网络分析、异常检测和代码生成,显著提高O-RAN任务的效率和可靠性,从而彻底改变我们如何部署和操作开放式无线电接入网络(O-RAN)。在本文中,我们介绍了ORAN-Bench-13K,这是第一个专门设计用于评估LLMs在O-RAN上下文中表现的全面基准。我们的基准由13,952个精心策划的多项选择题组成,这些题目是从116个O-RAN规范文档中生成的。我们利用了一种新颖的三阶段LLM框架,并将问题分为三个不同的难度级别,以涵盖广泛的ORAN相关知识。我们对几种最先进的LLMs进行了全面评估,包括Gemini、Chat-GPT和Mistral。此外,我们提出了ORANSight,这是一种基于检索增强生成(RAG)的管道,与其他经过测试的闭源模型相比,在ORAN-Bench-13K上表现出更高的性能。我们的研究结果表明,当前流行的LLM模型在O-RAN方面表现不佳,强调了专门模型的必要性。当加入基于RAG的ORANSight管道时,我们观察到明显的性能提升,宏观准确率为0.784,加权准确率为0.776,平均比其他测试的LLMs提高了21.55%和22.59%。
- 图表
- 解决问题本论文旨在通过增强网络分析、异常检测和代码生成来改善O-RAN的效率和可靠性,通过ORAN-Bench-13K评估大型语言模型(LLMs)的性能,发现当前流行的LLMs模型在O-RAN方面表现不佳,需要专门的模型。
- 关键思路本论文提出了一种新颖的三阶段LLM框架,并使用ORAN-Bench-13K评估了几种最先进的LLMs模型,同时提出了基于检索增强生成(RAG)的ORANSight管道,其在ORAN-Bench-13K上表现优异。
- 其它亮点本论文的亮点包括:使用ORAN-Bench-13K评估了几种最先进的LLMs模型,提出了基于检索增强生成(RAG)的ORANSight管道,其在ORAN-Bench-13K上表现优异;ORAN-Bench-13K是第一个综合评估LLMs性能的基准,由116个O-RAN规范文档生成了13,952个精心策划的多选题;实验结果表明,当前流行的LLMs模型在O-RAN方面表现不佳,需要专门的模型。
- 最近在这个领域中,还有一些相关的研究,如《Open Radio Access Network (O-RAN) 与5G 网络中的网络切片》、《O-RAN中的安全和隐私:问题和挑战》等。
沙发等你来抢
去评论
评论
沙发等你来抢