当前人工智能基准测试难以跟上现代模型的发展。尽管这些测试在衡量特定任务性能方面很有帮助,但很难判断基于互联网数据训练的模型是真正解决问题,还是仅记忆了已见过的答案。当模型在某些基准测试中接近100%准确率时,其性能差异也变得难以区分。虽然我们持续投入开发更具挑战性的新基准,但通往通用智能的道路上,仍需不断探索新的评估方式。近期转向动态、由人类评判的测试虽缓解了记忆化和饱和问题,却带来了人类偏好主观性带来的新挑战。为此,我们推出Kaggle Game Arena——一个公开的AI竞技平台,用于测试模型在互动环境中的实时表现。

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除