LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models

2024年03月19日
  • 简介
    近年来,中文大型语言模型在各种自然语言处理基准测试和实际应用中展现出了令人印象深刻的能力。然而,目前评估这些语言模型的基准测试仍然不够充分,尤其是在衡量语言模型所掌握的知识方面。为了解决这个问题,现有的数据集收集了来自不同学科和教育水平的中国考试题目,但这些基准测试主要集中在客观题型,如多项选择题,导致问题类型缺乏多样性。因此,本文提出了一个名为LHMKE的大规模、全面、多学科知识评估基准测试。LHMKE旨在为中文大型语言模型的知识获取能力提供全面的评估。它涵盖了30个学科、75项任务、共计10,465道题目,涵盖了从小学到专业认证考试的各个学科。值得注意的是,LHMKE包括客观和主观题型,提供了更全面的语言模型知识水平评估。我们在零-shot设置下评估了11个中文大型语言模型,这与实际考试相符,并比较了它们在不同学科上的表现。我们还进行了深入分析,检查GPT-4是否能够自动评分主观预测。我们的研究结果表明,LHMKE是一个具有挑战性和先进性的中文大型语言模型测试平台。
  • 图表
  • 解决问题
    该论文旨在提出一个全面评估中文大型语言模型知识获取能力的基准测试,以解决现有基准测试在评估中文大型语言模型知识获取能力方面的不足。
  • 关键思路
    该论文提出了一个名为LHMKE的基准测试,包含了30个学科、75个任务、10465个问题,涵盖了从小学到专业认证考试的各个阶段,并包含了客观题和主观题,提供了更全面的中文大型语言模型知识水平评估。
  • 其它亮点
    该论文在11个中文大型语言模型上进行了评估,使用了零-shot设置进行评估,并进行了深入的分析来检查GPT-4是否可以自动评分。该论文的亮点包括LHMKE基准测试的设计和实验,以及对中文大型语言模型知识获取能力的全面评估。
  • 相关研究
    最近的相关研究包括中文大型语言模型在各种自然语言处理基准测试上的表现,如GPT-3和Turing-NLG,以及中文大型语言模型的预训练方法,如BERT和RoBERTa等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论