SoK: Prudent Evaluation Practices for Fuzzing

简介

在过去十年中，模糊测试已被证明是发现软件漏洞的高效方法。在AFL普及轻量级覆盖反馈的开创性概念之后，模糊测试领域见证了大量科学研究，提出了新的技术、改进了现有策略的方法论方面或将现有方法移植到新的领域。所有这些工作必须通过展示其适用性、测量其性能并经过彻底的实证评估来证明其价值。然而，模糊测试对其目标、环境和情况非常敏感，例如测试过程中的随机性。毕竟，依靠随机性是模糊测试的核心原则之一，它控制着模糊测试器行为的许多方面。再加上往往难以控制的环境，实验的可重复性是一个关键问题，需要谨慎评估设置。为了解决这些对有效性的威胁，一些研究，尤其是Klees等人的《评估模糊测试》提出了如何实施精心设计的评估设置，但尚不清楚他们的建议在实践中得到了多大程度的采纳。在这项工作中，我们系统地分析了2018年至2023年间在顶级会议上发表的150篇模糊测试论文的评估。我们研究了现有指南的实施情况，并观察到潜在的缺陷和陷阱。我们发现，对于统计测试和模糊测试评估中的系统误差，现有指南存在惊人的忽视。例如，在调查报告的漏洞时，...
图表
解决问题

分析150篇关于fuzzing的论文，检查这些论文是否遵循评估准则，发现其中存在的问题和缺陷。
关键思路

本论文通过系统分析150篇发表在顶级会议上的fuzzing论文，发现大多数论文在评估过程中存在统计检验和系统误差方面的不足。作者提出了一些改进方法，以帮助未来的研究更准确地评估fuzzing技术。
其它亮点

作者发现大多数论文在评估过程中没有正确使用统计检验来证明其结果的显著性。此外，很少有论文提供完整的实验设置和开源代码，这使得结果的可重复性和可比性受到威胁。作者提出了一些改进方法，包括更好地记录实验设置和使用开源工具来评估fuzzing技术。
相关研究

与本论文相关的研究包括Klees等人的《评估Fuzz Testing》等论文，这些论文提出了一些评估fuzzing技术的准则。此外，最近还有一些关于fuzzing技术的研究，如《Fuzzing: On the Exponential Cost of Vulnerability Discovery》和《Angora: Efficient Fuzzing by Principled Search》。

SoK: Prudent Evaluation Practices for Fuzzing

评论