在机器学习领域,为了提高SOTA结果,研究人员需要一种方法来比较他们的模型与同行开发的模型的效果差异。准确的比较是验证新模型确实优于该领域现有模型的先决条件这个过程被称为「基准测试」,即Benchmark。
Facebook 正在发布一种新的测试方法,这是第一个用于人工智能领域的动态数据收集和基准测试平台。它使用人类测试和模型一起循环迭代,目的是为了创造具有挑战性的新数据并且更优化的人工智能模型。这项测试基准名为「 Dynabench」,它将根据人们的选择来进行变化,解决目前基准测试方法的不足,并促进更健壮的人工智能软件的开发。
Dynabench的解决方案是通过将人工测试带入这个流程来部分地实现基准测试过程。这个想法就是基于人类可以更准确地评估一个模型的准确性,而不是一组预先包装好的测试问题,可以为神经网络提出更难,更有创造性的挑战。
这是一个比当前静态基准更好的模型测量指标,将更好地反映人工智能模型在最重要的情况下的表现: 当与人交流时,他们的行为和反应都是复杂的,不断变化的方式,而这些方式无法在一组固定的数据点中反映出来。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢