Data Preparation for Deep Learning based Code Smell Detection: A Systematic Literature Review

2024年06月27日
  • 简介
    代码异味检测(CSD)在提高软件质量和可维护性方面起着至关重要的作用。深度学习(DL)技术因其卓越的性能而成为CSD的一种有前途的方法。然而,基于DL的CSD方法的有效性严重依赖于训练数据的质量。尽管其重要性,但很少关注分析数据准备过程。这项系统文献综述分析了DL-based CSD方法中使用的数据准备技术。我们确定了36篇相关论文,截至2023年12月发表,并对构建CSD数据集中的关键考虑因素进行了彻底分析,包括数据需求、收集、标记和清理。我们还总结了文献中的七个主要挑战及相应的解决方案。最后,我们提供了可操作的建议,以准备和访问高质量的CSD数据,强调数据多样性、标准化和可访问性的重要性。这项调查为研究人员和从业者提供了有价值的见解,以充分利用DL技术在CSD中的潜力。
  • 图表
  • 解决问题
    本文旨在分析深度学习在代码异味检测中的数据准备技术,探讨数据准备对于模型性能的影响。
  • 关键思路
    本文通过系统文献综述的方法,总结了36篇相关论文,分析了代码异味检测数据集构建的关键问题,包括数据需求、采集、标注和清洗。并提出了七个主要挑战及其解决方案,最后给出了数据准备的可操作建议。
  • 其它亮点
    本文指出了数据准备对于深度学习代码异味检测模型性能的重要性,强调了数据多样性、标准化和可访问性的重要性。此外,本文还总结了当前代码异味检测领域的研究进展和开源数据集。
  • 相关研究
    在这个领域中,最近的相关研究包括《A Survey on Deep Learning Techniques for Software Defect Prediction》、《Code Smell Detection: Towards a Machine Learning-Based Approach》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论