Reproducibility in Machine Learning-based Research: Overview, Barriers and Drivers

2024年06月20日
  • 简介
    目前,各个领域的研究都面临着结果可重复性的挑战,机器学习(ML)研究也不例外。这个问题主要是由于未发布的数据和/或源代码以及ML训练条件的敏感性导致的。虽然已经提出了不同的解决方案来解决这个问题,比如使用ML平台,但是ML驱动的研究的可重复性水平仍然不令人满意。因此,在本文中,我们讨论了ML驱动研究的可重复性,主要有三个目的:(i)确定应用ML进行研究时可重复性的障碍,以及将障碍分类为不同类型的可重复性(描述、代码、数据和实验可重复性);(ii)确定支持ML可重复性的潜在驱动因素,如工具、实践和干预措施,并区分技术驱动因素、程序驱动因素和与意识和教育相关的驱动因素;(iii)将驱动因素映射到障碍上。通过这项工作,我们希望提供见解并为采用不同解决方案支持ML可重复性的决策过程做出贡献。
  • 图表
  • 解决问题
    机器学习研究中存在的可复现性问题
  • 关键思路
    通过识别和分类不同类型的可复现性障碍,提出了技术驱动、流程驱动和意识和教育驱动的潜在解决方案,并将这些方案与障碍进行了映射。
  • 其它亮点
    论文讨论了机器学习研究中可复现性的挑战,包括未发布的数据和源代码以及敏感的训练条件。文章提出了不同类型的可复现性障碍,并介绍了支持机器学习可复现性的潜在驱动因素。实验设计和数据集方面没有具体提及。
  • 相关研究
    最近的相关研究包括“Reproducibility in Machine Learning: A Practitioner's Perspective”和“Towards Transparent and Reproducible Deep Learning: An Empirical Study of Deep Learning Representations”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论