Are large language models superhuman chemists?

2024年04月01日
  • 简介
    大型语言模型(LLMs)因其处理人类语言和执行未经明确训练的任务的能力而引起广泛关注。这对于化学科学来说是相关的,因为它们面临着小而多样的数据集问题,这些数据集通常以文本形式出现。LLMs已经显示出解决这些问题的潜力,并越来越被用于预测化学性质,优化反应,甚至自主设计和进行实验。然而,我们对LLMs的化学推理能力仍然只有非常有限的系统性理解,这需要改进模型并减轻潜在的危害。在这里,我们介绍了“ChemBench”,这是一个自动化框架,旨在严格评估最先进的LLMs的化学知识和推理能力,以及与人类化学家的专业知识进行比较。我们为化学科学的各个子领域策划了7000多个问题-答案对,评估了领先的开源和闭源LLMs,并发现最好的模型平均而言优于我们研究中最好的人类化学家。然而,模型在一些对于人类专家来说很容易的化学推理任务上仍然存在困难,并提供过于自信和误导性的预测,例如有关化学品的安全性。这些发现强调了这样一个双重现实,即虽然LLMs在化学任务上表现出了非凡的熟练度,但进一步的研究对于增强它们在化学科学中的安全性和实用性至关重要。我们的发现还表明需要对化学课程进行适应,并强调继续开发评估框架以改进安全和有用的LLMs的重要性。
  • 图表
  • 解决问题
    评估大型语言模型在化学科学中的应用能力和安全性
  • 关键思路
    使用自动化框架对多个大型语言模型进行严格评估,发现最好的模型在化学问题上表现优于人类专家,但仍存在一些易于人类专家而难于模型的化学推理任务,需要进一步研究以提高模型的安全性和实用性
  • 其它亮点
    使用自动化框架对多个大型语言模型进行了严格评估,发现最好的模型在化学问题上表现优于人类专家;发现模型在某些化学推理任务上表现不佳,需要进一步研究以提高模型的安全性和实用性;强调了开发评估框架以改进安全和实用的大型语言模型的重要性
  • 相关研究
    最近的相关研究包括使用大型语言模型进行化学反应预测和化学分子设计的研究,如“Neural Message Passing for Quantum Chemistry”和“Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论