Multiple-Choice Questions are Efficient and Robust LLM Evaluators

简介

我们提供了GSM-MC和MATH-MC两个多项选择（MC）数据集，通过收集来自50多个开源模型对GSM8K和MATH的答案和错误预测来构建。通过广泛的实验，我们表明LLMs在这两个流行基准测试的MC版本上的表现与它们在原始版本上的表现强相关，并且对于干扰项的选择和选项顺序非常稳健，同时评估时间缩短了最多30倍。按照类似的程序，我们还介绍了PythonIO，这是一个新的程序输出预测MC数据集，由另外两个流行的LLM评估基准测试HumanEval和MBPP构建而成。我们的数据和代码可在https://github.com/Geralt-Targaryen/MC-Evaluation上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在构建多项选择（MC）数据集，以便通过对开源模型的收集答案和错误预测来评估大规模语言模型（LLMs）的性能。
关键思路

该论文的关键思路是构建MC数据集以评估LLMs的性能，并证明这些MC数据集的性能与原始数据集的性能强相关，而且对于干扰项的选择和选项顺序非常稳健。
其它亮点

该论文构建了三个新的MC数据集，分别是GSM-MC、MATH-MC和PythonIO。实验表明，LLMs在这些数据集上的表现与原始数据集的表现强相关，而且评估时间缩短了高达30倍。研究还开源了数据和代码。
相关研究

最近的相关研究包括对LLMs进行评估的其他方法，如基于掩码的评估和基于对抗样本的评估。

Multiple-Choice Questions are Efficient and Robust LLM Evaluators

提问交流

提问交流