- 简介随着大型语言模型(LLMs)和大型多模态模型(LMMs)的快速发展,对能够理解科学文章和图表的基于人工智能的科学助手的需求不断增加。尽管取得了进展,但在评估模型对专业、研究生甚至博士级别的科学内容的理解方面仍存在重大差距。目前的数据集和基准主要集中在相对简单的科学任务和图表上,缺乏对不同高级科学学科的全面评估。为了弥补这一差距,我们从《自然通讯》期刊的开放获取科学文章中收集了一个多模态、多学科的数据集。该数据集涵盖了72个科学学科,确保了多样性和质量。我们创建了各种任务和设置的基准,以全面评估LMMs在理解科学图表和内容方面的能力。我们的评估表明,这些任务非常具有挑战性:许多开源模型遇到了显著的困难,甚至GPT-4V和GPT-4o也面临困难。我们还探索了使用我们的数据集作为训练资源的可能性,通过构建视觉指令跟随数据,使7B LLaVA模型在我们的基准上达到了与GPT-4V/o相当的性能。此外,我们还研究了使用我们交错的文章文本和图像对LMMs进行预训练的方法,结果在材料生成任务上取得了改进。源数据集,包括文章、图表、构建的基准和视觉指令跟随数据,均已开源。
-
- 图表
- 解决问题评估大型语言模型和多模态模型在理解科学文章和图形方面的能力,并填补当前评估数据集的不足。
- 关键思路从Nature Communications期刊的开放获取科学文章中收集了一个多模态、多学科的数据集,创建了各种任务和设置的基准,评估了大型语言模型和多模态模型在理解科学文章和图形方面的能力。同时探索了使用该数据集进行模型训练和预训练的方法,取得了一定的成果。
- 其它亮点该论文收集了一个多模态、多学科的数据集,并创建了各种任务和设置的基准,评估了大型语言模型和多模态模型在理解科学文章和图形方面的能力。同时探索了使用该数据集进行模型训练和预训练的方法,取得了一定的成果。研究表明这些任务非常具有挑战性,许多开源模型遇到了困难,即使是GPT-4V和GPT-4o也面临困难。研究还探讨了使用交错的文章文本和图像进行预训练的方法,在材料生成任务上取得了改进。数据集包括文章、图形、构建的基准和视觉指令跟踪数据,已经开源。
- 最近的相关研究包括:1.《How to evaluate scientific dialogue systems: Lessons learned from the Dialogue State Tracking Challenge》;2.《A Survey of Evaluation Metrics Used in Natural Language Generation》;3.《Evaluating Natural Language Generation Systems: Recent Advances and New Perspectives》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流