SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models

2024年06月13日
  • 简介
    越来越多的科学研究中使用大型语言模型(LLMs),需要先进的基准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们介绍了SciKnowEval基准,这是一个新的框架,系统地评估LLMs在科学知识的五个不同层次上的能力:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些层次旨在评估LLMs在科学知识的广度和深度方面,包括知识覆盖率、探究和探索能力、反思和推理能力、伦理和安全考虑以及实践熟练度。具体来说,我们以生物学和化学为SciKnowEval的两个实例,并构建了一个包含50K多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零-shot和few-shot提示策略对20个领先的开源和专有LLMs进行基准测试。结果表明,尽管取得了最先进的性能,专有LLMs仍有相当大的改进空间,特别是在处理科学计算和应用方面。我们预计SciKnowEval将建立一个全面的标准,用于在科学研究和发现中对LLMs进行基准测试,并促进将科学知识与强大的安全意识相结合的LLMs的发展。数据集和代码可在https://github.com/hicai-zju/sciknoweval上公开获取。
  • 作者讲解
  • 图表
  • 解决问题
    SciKnowEval:对大型语言模型在科学研究中的应用进行综合评估的需求
  • 关键思路
    提出了SciKnowEval框架,对大型语言模型在科学知识的广度和深度、探究能力、反思和推理能力、伦理和安全考虑以及实践熟练度等方面进行了系统评估。通过构建涵盖50K个多级科学问题和解决方案的数据集,使用零样本和少样本提示策略对20个领先的开源和专有LLM进行了基准测试。
  • 其它亮点
    实验结果表明,尽管专有LLM已经取得了最先进的性能,但仍然有相当大的提升空间,特别是在处理科学计算和应用方面。SciKnowEval将为科学研究和发现中的LLM基准测试建立综合标准,并促进将科学知识与强大的安全意识相结合的LLM的发展。
  • 相关研究
    最近的相关研究包括GPT-3和其他大型语言模型的应用研究,以及其他基准测试框架的开发,如GLUE和SuperGLUE。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问