几十年来,研究人员一直使用基准来衡量人工智能不同领域的进展,例如视觉和语言。 特别是在过去的几年里,随着深度学习变得非常流行,基准测试已成为许多研究实验室和科学家的狭隘关注点。 但是,虽然基准可以帮助比较 AI 系统在特定问题上的性能,但它们经常被断章取义,有时会产生有害的结果。

在 NeurIPS 2021 会议上接受的一篇论文 AI and the Everything in the Whole Wide World Benchmark 中,加州大学伯克利分校、华盛顿大学和谷歌的科学家概述了流行的 AI 基准测试的局限性。 科学家们警告说,基准测试的进展通常被用来宣称在一般智能领域取得了进展,这远远超出了这些基准测试所设计的任务。

因此,本文从现有的AI基准测试出发分析了它们的局限性,比如“基准是断章取义的”,“基准创作者将他们的作品框定为一般性的东西,而不是狭隘的范围”等。

同时,本文也为未来的基准工作提出了两条路径。首先,应该按照预期开发、呈现和理解基准——以评估具体的、范围广泛的和情境化的任务。其次,研究人员应该使用替代方法来探索其模型的广泛目标、行为和能力。

本文主要包括以下内容:

1、特定任务的基准

2、统一的基准

3、当基准超出了限制

4、误解基准的风险

5、上下文中的基准

原文链接:https://bdtechtalks.com/2021/12/06/ai-benchmarks-limitations/

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除