Questionable practices in machine learning

简介

评估现代机器学习模型很困难。研究人员和公司有强烈的动机在某些指标上报告最先进的结果，这往往会导致可疑的研究实践（QRPs）：这些不良实践虽然不构成明显的研究欺诈，但仍然存在问题。我们描述了43种这样的实践，这些实践可能会削弱报告的结果，并在可能的情况下给出了示例。我们的列表强调了在公共基准测试上对大型语言模型（LLMs）进行评估。我们还讨论了“不可重复的研究实践”，即使其他研究人员难以或无法重现、建立或审计以前的研究所做出的决策。
图表
解决问题

本论文旨在探讨现代机器学习模型的评估存在的问题，以及如何避免这些问题，特别是在大型语言模型的公共基准测试中。此外，论文还讨论了如何避免不可重复的研究实践。
关键思路

本论文列举了43种可能会破坏结果的不良研究实践，并给出了具体的例子。论文提出了一些应对这些问题的解决方案，例如增加透明度和开放性。
其它亮点

论文的亮点包括详细列举了43种可能存在的不良研究实践，以及提出了一些解决方案。此外，论文还强调了透明度和开放性的重要性，并提供了一些实验数据和代码。
相关研究

最近的相关研究包括《The reusable holdout: Preserving validity in adaptive data analysis》、《The case for open computer programs》等。