Synthetic Datasets for Program Similarity Research

简介

程序相似性已成为越来越受欢迎的研究领域，具有各种安全应用，如抄袭检测、作者识别和恶意软件分析。然而，程序相似性研究在评估新方法的有效性时面临着一些独特的数据集质量问题。首先，很少有高质量的二进制程序相似性数据集在这个领域存在并被广泛使用。其次，可能存在许多不同的、不同的定义，关于什么让一个程序与另一个程序相似，在许多情况下，数据集提供的标签与任何有用的行为或语义相似性概念之间存在巨大的语义鸿沟。本文介绍了HELIX框架，用于生成大型的、合成的程序相似性数据集。我们还介绍了Blind HELIX，这是一个基于HELIX的工具，用于使用程序切片自动从库代码中提取HELIX组件。我们通过比较程序相似性工具在HELIX数据集和手工制作的多个不同程序相似性概念的数据集上的性能来评估HELIX和Blind HELIX。使用Blind HELIX，我们展示了HELIX可以生成实际无限大小的、具有实用程序相似性概念的基础真实数据集。最后，我们讨论了结果并推断了相对工具排名。
图表
解决问题

生成大规模的程序相似性数据集是困难的，因为现有数据集质量不高，定义程序相似性的标准各不相同，且标签与实际行为或语义相似性之间存在巨大的语义鸿沟。本文提出了一个名为HELIX的框架，用于生成大规模的程序相似性数据集。
关键思路

本文的关键思路是使用HELIX框架生成大规模的程序相似性数据集，并使用Blind HELIX工具自动从库代码中提取HELIX组件。通过比较HELIX数据集和手工制作的数据集上程序相似性工具的性能，证明HELIX可以生成实用的数据集。
其它亮点

本文的亮点包括使用HELIX框架生成大规模的程序相似性数据集，使用Blind HELIX工具自动从库代码中提取HELIX组件，以及通过实验验证了HELIX数据集的实用性。本文还探讨了相对工具排名的原因。
相关研究

最近在程序相似性领域中，还有一些相关研究，如DeepSim、SimFix和SimDebloat等。

Synthetic Datasets for Program Similarity Research

评论