Predicting the Understandability of Computational Notebooks through Code Metrics Analysis

2024年06月16日
  • 简介
    计算笔记本已成为数据科学家的主要编码环境。然而,对其代码质量的研究仍在兴起阶段,共享的代码质量通常较差。鉴于维护和可重用性的重要性,了解影响笔记本代码可理解性的度量标准至关重要。代码可理解性是一个定性变量,与用户意见密切相关。传统的测量方法要么使用有限的问卷来审查一些代码片段,要么依赖于软件存储库中的喜欢和投票等元数据。我们的方法通过利用与代码可理解性相关的用户评论来增强对Jupyter笔记本的可理解性的测量。作为一个案例研究,我们使用了我们以前的研究中的542,051个Kaggle Jupyter笔记本,名为DistilKaggle。我们使用经过微调的DistilBERT transformer来识别与代码可理解性相关的用户评论。我们建立了一个称为用户意见代码可理解性(UOCU)的标准,该标准考虑了相关评论的数量、这些评论的赞数、总笔记本浏览量和总笔记本赞数。 UOCU证明比以前的方法更有效。此外,我们训练了机器学习模型,仅基于笔记本的度量标准来预测笔记本代码的可理解性。我们在我们的数据集中收集了132,723个最终笔记本的34个度量标准作为特征,并使用UOCU作为标签。我们的预测模型使用随机森林分类器,在预测计算笔记本的可理解性水平方面达到了89%的准确率。
  • 图表
  • 解决问题
    本文旨在通过利用用户评论来提高Jupyter笔记本代码可理解性的测量,以及使用机器学习模型预测笔记本代码的可理解性。
  • 关键思路
    本文提出了一个名为User Opinion Code Understandability (UOCU)的标准,该标准结合了相关评论的数量、评论点赞数、笔记本总浏览量和笔记本总点赞数等因素来评估Jupyter笔记本代码的可理解性。同时,利用这个标准,作者训练了机器学习模型来预测笔记本代码的可理解性。
  • 其它亮点
    本文使用了542,051个Kaggle Jupyter笔记本进行了案例研究,并使用Fine-tuned DistilBERT transformer识别与代码可理解性相关的用户评论。作者收集了132,723个最终笔记本的34个指标作为特征,并使用UOCU作为标签训练了机器学习模型。最终,使用随机森林分类器的预测模型在预测计算机笔记本的可理解性方面达到了89%的准确率。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如:1.《A Systematic Review of Automated Machine Learning: Challenges and Opportunities》;2.《Understanding Code Complexity in Notebooks》;3.《A Survey on Software Maintainability》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论