- 简介越来越多的科学研究中使用大型语言模型(LLMs),需要先进的基准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们介绍了SciKnowEval基准,这是一个新的框架,系统地评估LLMs在科学知识的五个不同层次上的能力:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些层次旨在评估LLMs在科学知识的广度和深度方面,包括知识覆盖率、探究和探索能力、反思和推理能力、伦理和安全考虑以及实践熟练度。具体来说,我们以生物学和化学为SciKnowEval的两个实例,并构建了一个包含50K多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零-shot和few-shot提示策略对20个领先的开源和专有LLMs进行基准测试。结果表明,尽管取得了最先进的性能,专有LLMs仍有相当大的改进空间,特别是在处理科学计算和应用方面。我们预计SciKnowEval将建立一个全面的标准,用于在科学研究和发现中对LLMs进行基准测试,并促进将科学知识与强大的安全意识相结合的LLMs的发展。数据集和代码可在https://github.com/hicai-zju/sciknoweval上公开获取。
-
- 图表
- 解决问题SciKnowEval:对大型语言模型在科学研究中的应用进行综合评估的需求
- 关键思路提出了SciKnowEval框架,对大型语言模型在科学知识的广度和深度、探究能力、反思和推理能力、伦理和安全考虑以及实践熟练度等方面进行了系统评估。通过构建涵盖50K个多级科学问题和解决方案的数据集,使用零样本和少样本提示策略对20个领先的开源和专有LLM进行了基准测试。
- 其它亮点实验结果表明,尽管专有LLM已经取得了最先进的性能,但仍然有相当大的提升空间,特别是在处理科学计算和应用方面。SciKnowEval将为科学研究和发现中的LLM基准测试建立综合标准,并促进将科学知识与强大的安全意识相结合的LLM的发展。
- 最近的相关研究包括GPT-3和其他大型语言模型的应用研究,以及其他基准测试框架的开发,如GLUE和SuperGLUE。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流