历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

如何评价语言模型是个非常重要的问题，今天，Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，旨在超越图灵测试，更加准确地实现语言模型落地。

随着规模的扩大，语言模型既表现出定量的改进，又表现出新的定性能力。尽管它们具有潜在的变革性影响，但这些新能力的特征还不明确。为了指导未来的研究，为颠覆性的新模型能力做好准备，并改进社会有害影响，我们了解语言模型现在和近期的能力和局限性是至关重要的。为了解决这一挑战，我们引入了超越模仿游戏基准(BIG-bench)。BIG-bench目前包含204项任务，由来自132个机构的442位作者贡献。任务的主题是多样化的，从语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等。BIG-bench专注于那些被认为超出当前语言模型能力的任务。我们评估了OpenAI的GPT模型、Google内部密集transformer架构以及BIG-bench上switch式的稀疏transformer 的行为，这些模型的大小涵盖了数百万到千亿的参数。此外，为了提供强有力的基准，一组人类专家评分人员执行了所有任务。研究结果包括: 模型性能和校准都随着规模的增加而提高，但绝对值较差(与评分者的性能相比); 跨模型类的性能非常相似，尽管这得益于稀疏性;可预测的逐步提高的任务通常涉及大量知识或记忆成分，而在临界尺度上表现出“突破性”行为的任务通常涉及多个步骤或成分，或脆性指标;在模棱两可的环境中，社会偏见通常会随着规模的增加而增加，但这可以通过提示来改善。

论文地址：https://arxiv.org/abs/2206.04615

项目地址：https://github.com/google/BIG-bench/#creating-a-programmatic-task

内容中包含的图片若涉及版权问题，请及时与我们联系删除

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

评论