mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

2023年11月30日
  • 简介
    最近,大型语言模型(LLMs)强大的文本生成能力催生了许多辅助论文阅读甚至写作的工具。然而,LLMs或多模态LLMs薄弱的图表分析能力极大地限制了它们的应用场景,尤其是在科学学术论文写作方面。为了打造更加通用的学术论文写作协作伙伴,本文主要集中于加强多模态LLMs的多模态图表分析能力。通过解析高质量论文的Latex源文件,我们精心构建了一个多模态图表理解数据集M-Paper。通过将论文中的图表与相关段落对齐,我们构建了专业的图表分析样本,用于训练和评估。M-Paper是第一个支持多个科学图表联合理解的数据集,包括以图像或Latex代码格式呈现的图形和表格。此外,为了更好地将协作伙伴与用户意图对齐,我们引入了“大纲”作为控制信号,该信号可以直接由用户提供或根据自动生成的信号进行修订。与最先进的多模态LLM进行的综合实验表明,使用我们的数据集进行训练显示出更强的科学图表理解性能,包括图表标题、图表分析和大纲推荐。数据集、代码和模型可在https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwl获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在加强多模态图表分析能力,为学术论文写作提供更为通用的协作伙伴。通过解析高质量论文的Latex源文件,构建了一个多模态图表理解数据集M-Paper,用于训练和评估专业图表分析样本。同时,引入“大纲”作为控制信号,以更好地与用户意图对齐。
  • 关键思路
    通过构建M-Paper数据集,训练多模态LLM模型,实现对多种科学图表的联合理解,包括图像或Latex代码格式的图表,并引入大纲作为控制信号。
  • 其它亮点
    论文的亮点包括构建了首个支持多种科学图表联合理解的M-Paper数据集,引入大纲作为控制信号,进行了多方面的实验并展示了强大的科学图表理解性能。同时,提供了数据集、代码和模型的开源。
  • 相关研究
    近期在多模态图表分析领域的相关研究包括:《Multimodal Transformer for Unaligned Multimodal Language Sequences》、《Multimodal Transformers for Text-to-SQL Generation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问