mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

向作者提问

NEW

简介

最近，大型语言模型（LLMs）强大的文本生成能力催生了许多辅助论文阅读甚至写作的工具。然而，LLMs或多模态LLMs薄弱的图表分析能力极大地限制了它们的应用场景，尤其是在科学学术论文写作方面。为了打造更加通用的学术论文写作协作伙伴，本文主要集中于加强多模态LLMs的多模态图表分析能力。通过解析高质量论文的Latex源文件，我们精心构建了一个多模态图表理解数据集M-Paper。通过将论文中的图表与相关段落对齐，我们构建了专业的图表分析样本，用于训练和评估。M-Paper是第一个支持多个科学图表联合理解的数据集，包括以图像或Latex代码格式呈现的图形和表格。此外，为了更好地将协作伙伴与用户意图对齐，我们引入了“大纲”作为控制信号，该信号可以直接由用户提供或根据自动生成的信号进行修订。与最先进的多模态LLM进行的综合实验表明，使用我们的数据集进行训练显示出更强的科学图表理解性能，包括图表标题、图表分析和大纲推荐。数据集、代码和模型可在https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwl获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在加强多模态图表分析能力，为学术论文写作提供更为通用的协作伙伴。通过解析高质量论文的Latex源文件，构建了一个多模态图表理解数据集M-Paper，用于训练和评估专业图表分析样本。同时，引入“大纲”作为控制信号，以更好地与用户意图对齐。
关键思路

通过构建M-Paper数据集，训练多模态LLM模型，实现对多种科学图表的联合理解，包括图像或Latex代码格式的图表，并引入大纲作为控制信号。
其它亮点

论文的亮点包括构建了首个支持多种科学图表联合理解的M-Paper数据集，引入大纲作为控制信号，进行了多方面的实验并展示了强大的科学图表理解性能。同时，提供了数据集、代码和模型的开源。
相关研究

近期在多模态图表分析领域的相关研究包括：《Multimodal Transformer for Unaligned Multimodal Language Sequences》、《Multimodal Transformers for Text-to-SQL Generation》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问