- 简介短信服务(SMS)是一种广泛使用且成本效益高的通信媒介,但不幸的是,它已经变成了不受欢迎的信息(SMS垃圾邮件)的避难所。随着智能手机和互联网连接的快速普及,SMS垃圾邮件已经成为一种普遍的威胁。垃圾邮件发送者已经注意到短信对于手机用户的重要性。因此,随着新的网络安全威胁的出现,近年来SMS垃圾邮件的数量也显著增加。SMS数据的非结构化格式为SMS垃圾邮件检测带来了重大挑战,使得在网络安全领域成功打击垃圾邮件攻击更加困难。在这项工作中,我们采用经过优化和微调的基于变压器的大型语言模型(LLM)来解决垃圾短信检测问题。我们使用基准SMS垃圾邮件数据集进行垃圾邮件检测,并利用几种预处理技术获得干净和无噪声的数据,并使用文本增强技术解决类别不平衡问题。整个实验表明,我们优化的微调BERT(双向编码器表示来自变压器的变体)模型RoBERTa获得了99.84%的高准确性。我们还使用可解释的人工智能(XAI)技术计算正负系数分数,探索和解释微调模型在这个基于文本的垃圾短信检测任务中的透明度。此外,还研究了传统的机器学习(ML)模型,以比较它们与基于变压器的模型的性能。本分析描述了LLMs如何对网络安全领域复杂的基于文本的垃圾邮件数据产生良好的影响。
- 图表
- 解决问题本论文旨在解决短信垃圾信息检测的问题,利用优化和微调的基于Transformer的大型语言模型来提高检测准确性。
- 关键思路本论文的关键思路是利用Transformer-based Large Language Models (LLMs)来解决短信垃圾信息检测的问题,并且使用文本增强技术解决类别不平衡问题。
- 其它亮点本文使用优化和微调的RoBERTa模型在短信垃圾信息检测任务中取得了99.84%的高准确性,并且使用可解释的人工智能技术来探索和解释模型的透明度。此外,还对传统的机器学习模型进行了比较分析。
- 最近的相关研究包括使用深度学习模型进行垃圾短信检测的论文,如《基于深度学习的短信垃圾过滤研究》和《基于卷积神经网络的短信垃圾过滤算法研究》等。
沙发等你来抢
去评论
评论
沙发等你来抢