Is Your Large Language Model Knowledgeable or a Choices-Only Cheater?

2024年07月02日
  • 简介
    最近的研究表明,大型语言模型(LLMs)可以仅使用选项回答多项选择题,但这是否意味着LLMs在仅有选项的情况下的能力主导了MCQA排行榜的排名呢?为了回答这个问题,我们使用对比集来探究LLMs是否过度依赖MCQA中仅有选项的捷径。虽然以前的研究通过昂贵的人工注释或模型生成的数据来构建对比集,但这些方法可能存在偏差,因此我们采用图形挖掘从现有的MCQA数据集中提取对比集。我们在UnifiedQA上使用我们的方法,这是一组六个具有高选择准确性的常识推理数据集,以构建一个820个问题的对比集。在验证了我们的对比集之后,我们测试了12个LLMs,发现这些模型在给出问题和选项时并不依赖于仅有选项的捷径。因此,尽管MCQA容易受到高选择准确性的影响,我们认为LLMs之所以在MCQA排行榜上排名靠前,并不仅仅是因为它们能够利用仅有选项的捷径。
  • 解决问题
    论文旨在探究大型语言模型(LLMs)在多选题答题中是否仅仅依赖于选项,以及它们在MCQA排行榜上的排名是否主要受到了在仅有选项的情况下的能力的影响。
  • 关键思路
    通过使用图挖掘技术从现有的MCQA数据集中提取对比集来回答问题,以验证LLMs是否过度依赖仅有选项的快捷方式。通过对12个LLMs的测试,发现这些模型在给定问题和选项的情况下并不依赖于仅有选项的快捷方式。
  • 其它亮点
    论文使用图挖掘技术从现有的MCQA数据集中提取对比集来验证LLMs是否过度依赖仅有选项的快捷方式。实验使用了UnifiedQA数据集,并建立了一个820个问题的对比集。结果表明,LLMs在给定问题和选项的情况下并不依赖于仅有选项的快捷方式。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如:《The Effectiveness of Data Augmentation in Image Classification using Deep Learning Techniques》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论