- 简介代码异味检测(CSD)在提高软件质量和可维护性方面起着至关重要的作用。深度学习(DL)技术因其卓越的性能而成为CSD的一种有前途的方法。然而,基于DL的CSD方法的有效性严重依赖于训练数据的质量。尽管其重要性,但很少关注分析数据准备过程。这项系统文献综述分析了DL-based CSD方法中使用的数据准备技术。我们确定了36篇相关论文,截至2023年12月发表,并对构建CSD数据集中的关键考虑因素进行了彻底分析,包括数据需求、收集、标记和清理。我们还总结了文献中的七个主要挑战及相应的解决方案。最后,我们提供了可操作的建议,以准备和访问高质量的CSD数据,强调数据多样性、标准化和可访问性的重要性。这项调查为研究人员和从业者提供了有价值的见解,以充分利用DL技术在CSD中的潜力。
- 图表
- 解决问题本文旨在分析深度学习在代码异味检测中的数据准备技术,探讨数据准备对于模型性能的影响。
- 关键思路本文通过系统文献综述的方法,总结了36篇相关论文,分析了代码异味检测数据集构建的关键问题,包括数据需求、采集、标注和清洗。并提出了七个主要挑战及其解决方案,最后给出了数据准备的可操作建议。
- 其它亮点本文指出了数据准备对于深度学习代码异味检测模型性能的重要性,强调了数据多样性、标准化和可访问性的重要性。此外,本文还总结了当前代码异味检测领域的研究进展和开源数据集。
- 在这个领域中,最近的相关研究包括《A Survey on Deep Learning Techniques for Software Defect Prediction》、《Code Smell Detection: Towards a Machine Learning-Based Approach》等。
沙发等你来抢
去评论
评论
沙发等你来抢