Can multiple-choice questions really be useful in detecting the abilities of LLMs?

2024年03月26日
  • 简介
    多项选择题(MCQs)由于其简单和高效而被广泛用于评估大型语言模型(LLMs)。然而,在需要长篇生成(LFG)答案的知识密集型场景中,MCQs是否真正能够衡量LLM的能力存在疑虑。任务和评估方法之间的不匹配要求对MCQ的功效进行深思熟虑的分析,本文通过在两种语言(中文和英文)的四个问答(QA)数据集上评估九个LLM来进行这项工作。我们发现一个重要问题:在双语MCQs中,LLMs表现出顺序敏感性,偏向于位于特定位置(即第一位置)的答案。我们通过比较MCQs和长篇生成问题(LFGQs)的直接输出、令牌logits和嵌入来量化MCQs和LFGQs之间的差距。我们的结果显示,对于相同的问题,MCQs和LFGQs的答案之间的相关性相对较低。此外,我们提出了两种方法来量化LLMs输出的一致性和置信度,这可以推广到其他QA评估基准。值得注意的是,我们的分析挑战了一致性越高,准确性越大的观点。我们还发现,与LFGQs相比,MCQs在期望校准误差方面不太可靠。最后,MCQs和LFGQs之间的不匹配不仅反映在评估性能上,而且还反映在嵌入空间中。我们的代码和模型可以在https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs上访问。
  • 图表
  • 解决问题
    论文试图探讨多项选择题是否能够准确评估大型语言模型的能力,在知识密集型场景下是否适用。同时,论文还发现了双语多项选择题中存在的问题。
  • 关键思路
    论文通过对9个大型语言模型在4个问答数据集上的评估,发现多项选择题在双语情境下存在位置偏差,导致答案更容易出现在第一个位置。同时,多项选择题和长篇生成题的答案相关性较低,且多项选择题的可靠性不如长篇生成题。
  • 其它亮点
    论文提出了两种方法来量化语言模型输出的一致性和置信度,并且发现高一致性并不一定代表高准确性。实验使用了中英文问答数据集,开源了代码和模型,并且发现多项选择题和长篇生成题的差异不仅反映在评估性能上,也反映在嵌入空间中。
  • 相关研究
    近期的相关研究包括《GPT-3:语言模型的新突破》、《BERT:预训练双向变换器编码器用于自然语言处理》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论