如何评价语言模型是个非常重要的问题,今天,Google发布语言模型评价新基准BIG-bench,204个任务全面评价语言模型能力,旨在超越图灵测试,更加准确地实现语言模型落地。

随着规模的扩大,语言模型既表现出定量的改进,又表现出新的定性能力。尽管它们具有潜在的变革性影响,但这些新能力的特征还不明确。为了指导未来的研究,为颠覆性的新模型能力做好准备,并改进社会有害影响,我们了解语言模型现在和近期的能力和局限性是至关重要的。为了解决这一挑战,我们引入了超越模仿游戏基准(BIG-bench)。BIG-bench目前包含204项任务,由来自132个机构的442位作者贡献。任务的主题是多样化的,从语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等。BIG-bench专注于那些被认为超出当前语言模型能力的任务。我们评估了OpenAI的GPT模型、Google内部密集transformer架构以及BIG-bench上switch式的稀疏transformer 的行为,这些模型的大小涵盖了数百万到千亿的参数。此外,为了提供强有力的基准,一组人类专家评分人员执行了所有任务。研究结果包括: 模型性能和校准都随着规模的增加而提高,但绝对值较差(与评分者的性能相比); 跨模型类的性能非常相似,尽管这得益于稀疏性;可预测的逐步提高的任务通常涉及大量知识或记忆成分,而在临界尺度上表现出“突破性”行为的任务通常涉及多个步骤或成分,或脆性指标;在模棱两可的环境中,社会偏见通常会随着规模的增加而增加,但这可以通过提示来改善。

论文地址:https://arxiv.org/abs/2206.04615

项目地址:https://github.com/google/BIG-bench/#creating-a-programmatic-task

内容中包含的图片若涉及版权问题,请及时与我们联系删除