标题：谷歌|The Benchmark Lottery（测评彩票）

简介：经验机器学习 (ML) 的世界强烈依赖于以确定不同算法和方法的相对有效性。本文提出了一个测评彩票的概念，它描述了整体机器学习基准测试过程的脆弱性。基准彩票假设除了基本的算法优势外，许多因素可能会导致一种方法被认为是优越的。在多个基准设置中普遍存在在机器学习社区，我们表明算法的相对性能可能是只需选择不同的基准任务，突出显示当前范式的脆弱性和潜在的错误解释来自对机器学习方法的基准测试。鉴于每个基准都会做出声明关于它认为重要的事情，我们认为这可能会导致偏见社区的进步。我们讨论观察到的现象的影响并提供有关使用多种机器学习缓解它们的建议领域和社区作为用例，包括自然语言处理，计算机视觉、信息检索、推荐系统和强化学习。