SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models

向作者提问

NEW

简介

越来越多的科学研究中使用大型语言模型（LLMs），需要先进的基准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们介绍了SciKnowEval基准，这是一个新的框架，系统地评估LLMs在科学知识的五个不同层次上的能力：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些层次旨在评估LLMs在科学知识的广度和深度方面，包括知识覆盖率、探究和探索能力、反思和推理能力、伦理和安全考虑以及实践熟练度。具体来说，我们以生物学和化学为SciKnowEval的两个实例，并构建了一个包含50K多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零-shot和few-shot提示策略对20个领先的开源和专有LLMs进行基准测试。结果表明，尽管取得了最先进的性能，专有LLMs仍有相当大的改进空间，特别是在处理科学计算和应用方面。我们预计SciKnowEval将建立一个全面的标准，用于在科学研究和发现中对LLMs进行基准测试，并促进将科学知识与强大的安全意识相结合的LLMs的发展。数据集和代码可在https://github.com/hicai-zju/sciknoweval上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

SciKnowEval：对大型语言模型在科学研究中的应用进行综合评估的需求
关键思路

提出了SciKnowEval框架，对大型语言模型在科学知识的广度和深度、探究能力、反思和推理能力、伦理和安全考虑以及实践熟练度等方面进行了系统评估。通过构建涵盖50K个多级科学问题和解决方案的数据集，使用零样本和少样本提示策略对20个领先的开源和专有LLM进行了基准测试。
其它亮点

实验结果表明，尽管专有LLM已经取得了最先进的性能，但仍然有相当大的提升空间，特别是在处理科学计算和应用方面。SciKnowEval将为科学研究和发现中的LLM基准测试建立综合标准，并促进将科学知识与强大的安全意识相结合的LLM的发展。
相关研究

最近的相关研究包括GPT-3和其他大型语言模型的应用研究，以及其他基准测试框架的开发，如GLUE和SuperGLUE。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问