Transfer Learning in Pre-Trained Large Language Models for Malware Detection Based on System Calls

2024年05月15日
  • 简介
    在当前的网络安全环境中,保护军事设备,如通信和战场管理系统,免受复杂的网络攻击是至关重要的。恶意软件利用隐蔽的方法,通过漏洞入侵系统,通常可以逃避传统的软件签名等检测机制。在文献中,ML/DL在漏洞检测中的应用已经得到了广泛的探讨。然而,当前的ML/DL漏洞检测方法在理解复杂攻击背后的上下文和意图方面存在困难。将大型语言模型(LLM)与系统调用分析相结合,提供了一个有前途的方法来增强恶意软件的检测。本研究提出了一个新框架,利用LLM基于系统调用数据对恶意软件进行分类。该框架使用迁移学习来适应预训练的LLM进行恶意软件检测。通过在良性和恶意系统调用数据集上重新训练LLM,模型被精细化以检测恶意软件活动的迹象。使用超过1TB系统调用的数据集进行的实验表明,具有更大上下文大小的模型,如BigBird和Longformer,实现了更高的准确性和约0.86的F1分数。结果强调了上下文大小在提高检测率方面的重要性,并强调了计算复杂性和性能之间的权衡。这种方法在高风险环境中实时检测具有显著的潜力,为不断发展的网络威胁提供了一个强大的解决方案。
  • 图表
  • 解决问题
    本论文旨在解决军事设备在当前网络安全环境下面临的复杂网络攻击的问题。传统的漏洞检测方法往往难以识别新型的恶意软件,因此论文提出了一种基于大型语言模型和系统调用分析的新型漏洞检测方法。
  • 关键思路
    通过将预训练的大型语言模型与恶意软件的系统调用数据相结合,利用迁移学习的方法对模型进行重新训练,提高恶意软件检测的准确性。同时,研究表明上下文大小对于提高检测率非常重要。
  • 其它亮点
    论文使用了超过1TB的系统调用数据集进行了实验,并使用了BigBird和Longformer等大型语言模型。实验结果表明,使用更大的上下文大小可以提高检测准确率,F1-Score可以达到0.86左右。这种方法对于高风险环境中的实时检测具有重要意义。
  • 相关研究
    在相关研究方面,目前已经有许多学者探索了利用机器学习和深度学习进行漏洞检测的方法。其中一些研究包括:'A Survey of Machine Learning for Big Data Processing','Deep Learning Based Malware Detection Using Two Dimensional Binary Program Features'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论