- 简介我们提供了GSM-MC和MATH-MC两个多项选择(MC)数据集,通过收集来自50多个开源模型对GSM8K和MATH的答案和错误预测来构建。通过广泛的实验,我们表明LLMs在这两个流行基准测试的MC版本上的表现与它们在原始版本上的表现强相关,并且对于干扰项的选择和选项顺序非常稳健,同时评估时间缩短了最多30倍。按照类似的程序,我们还介绍了PythonIO,这是一个新的程序输出预测MC数据集,由另外两个流行的LLM评估基准测试HumanEval和MBPP构建而成。我们的数据和代码可在https://github.com/Geralt-Targaryen/MC-Evaluation上获得。
-
- 图表
- 解决问题论文旨在构建多项选择(MC)数据集,以便通过对开源模型的收集答案和错误预测来评估大规模语言模型(LLMs)的性能。
- 关键思路该论文的关键思路是构建MC数据集以评估LLMs的性能,并证明这些MC数据集的性能与原始数据集的性能强相关,而且对于干扰项的选择和选项顺序非常稳健。
- 其它亮点该论文构建了三个新的MC数据集,分别是GSM-MC、MATH-MC和PythonIO。实验表明,LLMs在这些数据集上的表现与原始数据集的表现强相关,而且评估时间缩短了高达30倍。研究还开源了数据和代码。
- 最近的相关研究包括对LLMs进行评估的其他方法,如基于掩码的评估和基于对抗样本的评估。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流