- 简介大型语言模型(LLMs)可以通过增强网络分析、异常检测和代码生成,显著提高和增强各种O-RAN任务的效率和可靠性,从而彻底改变我们部署和操作开放式无线电接入网络(O-RAN)的方式。本文介绍了ORAN-Bench-13K,这是第一个专门设计用于评估LLMs在O-RAN环境下性能的全面基准测试。我们精心策划了13,952个多项选择题,这些题目来自于116份O-RAN规范文档。我们采用了一种新颖的三阶段LLM框架,并将这些问题分为三个不同的难度级别,以涵盖O-RAN相关知识的广泛范围。我们对几种最先进的LLM模型进行了全面评估,包括Gemini、Chat-GPT和Mistral。此外,我们提出了ORANSight,这是一个基于检索增强生成(RAG)的管道,与其他测试的闭源模型相比,在ORAN-Bench-13K上表现出更好的性能。我们的研究结果表明,目前流行的LLM模型在O-RAN方面表现不佳,需要专门的模型。当我们使用基于RAG的ORANSight管道时,我们观察到明显的性能提升,宏观准确度为0.784,加权准确度为0.776,平均比其他测试的LLM模型提高了21.55%和22.59%。
- 图表
- 解决问题本论文旨在通过设计一个全面的基准测试ORAN-Bench-13K,来评估大型语言模型(LLMs)在O-RAN上的性能表现。研究发现当前流行的LLM模型在O-RAN上不够熟练,需要专门的模型。
- 关键思路论文提出了一个新的三阶段LLM框架,并使用Retrieval-Augmented Generation(RAG)技术提出了ORANSight管道,以提高O-RAN-Bench-13K的性能。该框架和管道的使用使得LLMs在O-RAN上的性能得到了显著提高。
- 其它亮点论文设计了一个全面的基准测试ORAN-Bench-13K,包含13,952个从116个O-RAN规范文档中生成的多项选择题。论文使用了几种最先进的LLM模型,包括Gemini、Chat-GPT和Mistral,并提出了ORANSight管道。实验结果表明,使用ORANSight管道可以显著提高LLMs在O-RAN上的性能。
- 最近的相关研究包括使用LLMs进行自然语言处理的研究,以及使用LLMs进行代码生成的研究。
沙发等你来抢
去评论
评论
沙发等你来抢