Multiple-Choice Questions are Efficient and Robust LLM Evaluators

2024年05月20日
  • 简介
    我们提供了GSM-MC和MATH-MC两个多项选择(MC)数据集,通过收集来自50多个开源模型对GSM8K和MATH的答案和错误预测来构建。通过广泛的实验,我们表明LLMs在这两个流行基准测试的MC版本上的表现与它们在原始版本上的表现强相关,并且对于干扰项的选择和选项顺序非常稳健,同时评估时间缩短了最多30倍。按照类似的程序,我们还介绍了PythonIO,这是一个新的程序输出预测MC数据集,由另外两个流行的LLM评估基准测试HumanEval和MBPP构建而成。我们的数据和代码可在https://github.com/Geralt-Targaryen/MC-Evaluation上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在构建多项选择(MC)数据集,以便通过对开源模型的收集答案和错误预测来评估大规模语言模型(LLMs)的性能。
  • 关键思路
    该论文的关键思路是构建MC数据集以评估LLMs的性能,并证明这些MC数据集的性能与原始数据集的性能强相关,而且对于干扰项的选择和选项顺序非常稳健。
  • 其它亮点
    该论文构建了三个新的MC数据集,分别是GSM-MC、MATH-MC和PythonIO。实验表明,LLMs在这些数据集上的表现与原始数据集的表现强相关,而且评估时间缩短了高达30倍。研究还开源了数据和代码。
  • 相关研究
    最近的相关研究包括对LLMs进行评估的其他方法,如基于掩码的评估和基于对抗样本的评估。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问