Questionable practices in machine learning

Gavin Leech ,
Juan J. Vazquez ,
Misha Yagudin ,
Niclas Kupper ,
Laurence Aitchison
56
热度
2024年07月17日
  • 简介
    评估现代机器学习模型很困难。研究人员和公司有强烈的动机在某些指标上报告最先进的结果,这往往会导致可疑的研究实践(QRPs):这些不良实践虽然不构成明显的研究欺诈,但仍然存在问题。我们描述了43种这样的实践,这些实践可能会削弱报告的结果,并在可能的情况下给出了示例。我们的列表强调了在公共基准测试上对大型语言模型(LLMs)进行评估。我们还讨论了“不可重复的研究实践”,即使其他研究人员难以或无法重现、建立或审计以前的研究所做出的决策。
  • 图表
  • 解决问题
    本论文旨在探讨现代机器学习模型的评估存在的问题,以及如何避免这些问题,特别是在大型语言模型的公共基准测试中。此外,论文还讨论了如何避免不可重复的研究实践。
  • 关键思路
    本论文列举了43种可能会破坏结果的不良研究实践,并给出了具体的例子。论文提出了一些应对这些问题的解决方案,例如增加透明度和开放性。
  • 其它亮点
    论文的亮点包括详细列举了43种可能存在的不良研究实践,以及提出了一些解决方案。此外,论文还强调了透明度和开放性的重要性,并提供了一些实验数据和代码。
  • 相关研究
    最近的相关研究包括《The reusable holdout: Preserving validity in adaptive data analysis》、《The case for open computer programs》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论