HRVDA: High-Resolution Visual Document Assistant

简介

利用大量的训练数据，多模态大语言模型（MLLM）展示了强大的视觉理解能力，并在各种任务中取得了显著的性能。然而，它们在视觉文档理解方面的表现仍有很大的提升空间。这种差异主要归因于视觉文档理解是一项精细的预测任务。在自然场景中，MLLM通常使用低分辨率图像，导致视觉信息的大量丢失。此外，通用的MLLM在处理面向文档的指令方面并不擅长。在本文中，我们提出了一种高分辨率视觉文档助手（HRVDA），它弥合了MLLM和视觉文档理解之间的差距。该模型采用内容过滤机制和指令过滤模块来分别过滤掉与内容无关的视觉令牌和与指令无关的视觉令牌，从而实现对高分辨率图像的高效模型训练和推断。此外，我们构建了一个面向文档的视觉指令调整数据集，并应用多阶段训练策略来增强模型的文档建模能力。广泛的实验表明，我们的模型在多个文档理解数据集上实现了最先进的性能，同时保持了与低分辨率模型相当的训练效率和推断速度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提高视觉文档理解的精度，解决当前多模态大语言模型在处理高分辨率图像和文档指令时的问题。
关键思路

论文提出了一种名为HRVDA的模型，使用内容过滤机制和指令过滤模块分别过滤内容无关的视觉令牌和指令无关的视觉令牌，从而实现高分辨率图像的高效模型训练和推理。此外，还构建了一个面向文档指令调整的视觉数据集，并采用多阶段训练策略来增强模型的文档建模能力。
其它亮点

论文在多个文档理解数据集上取得了最先进的性能，同时保持了与低分辨率模型相当的训练效率和推理速度。实验使用了多个数据集和多阶段训练策略，并且开源了代码。
相关研究

近期相关研究包括：《Document Visual Question Answering》、《DocVQA: A Dataset for VQA on Document Images》等。

HRVDA: High-Resolution Visual Document Assistant

提问交流

提问交流