ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area

简介

大型语言模型（LLMs）已经取得了显著的成功，并在包括化学在内的各个科学领域得到了应用。然而，许多化学任务需要处理视觉信息，而现有的化学LLMs无法成功处理。这就带来了对能够整合化学领域多模态信息的模型的日益增长的需求。在本文中，我们介绍了ChemVLM，这是一个专门为化学应用设计的开源化学多模态大型语言模型。ChemVLM在一个精心策划的双语多模态数据集上进行训练，增强了其理解文本和视觉化学信息的能力，包括分子结构、反应和化学考试问题。我们开发了三个数据集进行全面评估，分别针对化学光学字符识别（OCR）、多模态化学推理（MMCR）和多模态分子理解任务。我们在各种任务上对ChemVLM进行了与一系列开源和专有的多模态大型语言模型的基准测试。实验结果表明，ChemVLM在所有评估任务中均取得了有竞争力的表现。我们的模型可以在https://huggingface.co/AI4Chem/ChemVLM-26B找到。
图表
解决问题

本文旨在解决化学领域中需要处理视觉信息的任务，而现有的化学大语言模型无法成功处理这些任务的问题。因此，需要开发能够集成多模态信息的模型。
关键思路

本文介绍了ChemVLM，这是一个专门为化学应用设计的开源化学多模态大语言模型。ChemVLM在一个精心策划的双语多模态数据集上进行训练，增强了其理解文本和视觉化学信息的能力，包括分子结构、反应和化学考试问题。本文通过各种任务对ChemVLM进行了基准测试，并将其与各种开源和专有的多模态大语言模型进行了比较。实验结果表明，ChemVLM在所有评估任务中均取得了竞争性能。
其它亮点

本文开发了三个数据集进行全面评估，分别针对化学光学字符识别（OCR）、多模态化学推理（MMCR）和多模态分子理解任务。实验结果表明，ChemVLM在所有评估任务中均取得了竞争性能。该模型已开源并可在https://huggingface.co/AI4Chem/ChemVLM-26B上找到。
相关研究

最近的相关研究包括：1. “ChemBERTa: Large-scale self-supervised pretraining for molecular property prediction”；2. “Molecule Attention Transformer”；3. “Chemical reaction prediction using graph attention neural network”等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论