Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4

2023年12月13日
  • 简介
    动态分析方法能够有效地识别外壳、包装或混淆的恶意软件,从而防止它们侵入计算机。作为动态恶意软件行为的重要表示,由连续的API调用组成的API(应用程序编程接口)序列已逐渐成为动态分析方法的主要特征。尽管已经有许多基于API序列的恶意软件检测深度学习模型,但这些模型产生的API调用表示质量有限。这些模型无法为未知的API调用生成表示,这削弱了检测性能和泛化性能。此外,API调用的概念漂移现象非常突出。为了解决这些问题,我们介绍了一种使用GPT-4辅助的恶意软件动态分析方法。在这种方法中,使用GPT-4为API序列中的每个API调用创建解释性文本。随后,使用预训练的语言模型BERT获取文本的表示,从中得出API序列的表示。理论上,这种提议的方法能够为所有API调用生成表示,不需要在生成过程中进行数据集训练。利用表示,设计了一个基于CNN的检测模型来提取特征。我们采用了五个基准数据集来验证所提出模型的性能。实验结果表明,所提出的检测算法的性能优于最先进的方法(TextCNN)。具体而言,在跨数据库实验和少样本学习实验中,所提出的模型实现了出色的检测性能和几乎100%的恶意软件召回率,验证了其优越的泛化性能。代码可在以下网址获得:github.com/yan-scnu/Prompted_Dynamic_Detection。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决动态分析中API序列表示的局限性,提出了一种基于GPT-4和BERT的方法来生成API调用的文本解释,并使用CNN模型进行恶意软件检测。
  • 关键思路
    使用GPT-4生成API调用的文本解释,再使用BERT获取文本表示,从而生成API序列的表示,避免了数据集训练的必要性,并提高了对未知API的表示能力。利用该表示,设计了一个CNN模型进行恶意软件检测。
  • 其它亮点
    论文使用了GPT-4和BERT来生成API序列的表示,从而提高了对未知API的表示能力。实验结果表明,该方法在交叉数据库实验和少样本学习实验中表现出色,并几乎达到100%的召回率。代码已开源。
  • 相关研究
    最近的相关研究包括使用深度学习模型进行恶意软件检测,以及使用API序列表示进行动态分析。其中一些论文包括:“Malware detection using deep learning techniques”,“A survey of dynamic analysis and its applications to malware detection”,“Deep learning for malware detection using convolutional neural networks”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问