ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data

向作者提问

NEW

简介

最近，大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在文档视觉问答（VQA）任务上表现出了很有前途的结果，尤其是在文档指令数据集上进行训练后。有效的文档指令数据评估方法对于构建高效的指令数据至关重要，这反过来又促进了LLMs和MLLMs在文档VQA方面的训练。然而，大多数现有的指令数据评估方法仅限于指令本身的文本内容，从而阻碍了对文档指令数据集的有效评估并限制了它们的构建。本文提出了ProcTag，一种基于数据的方法，用于评估文档指令数据的有效性。ProcTag创新地在执行过程中对指令进行标记，而不是仅仅针对指令文本本身进行标记。通过利用这些标记的多样性和复杂性来评估给定数据集的有效性，ProcTag可以选择性地对文档指令进行抽样或过滤。此外，本文还提出了一种新的半结构化布局感知文档提示策略DocLayPrompt，用于有效地表示文档。实验证明，利用ProcTag对现有的开放源代码和生成的文档VQA/指令数据集进行抽样，可以显著优于当前的指令数据评估方法。令人印象深刻的是，利用ProcTag进行生成的文档数据集抽样时，只需要完成数据集的30.5％的文档指令即可实现100％的有效性。该代码公开在https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/ProcTag。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种有效评估文档指令数据集的方法ProcTag，并提出一种半结构化布局感知文档提示策略DocLayPrompt，以帮助训练大型语言模型和多模态大型语言模型用于文档视觉问答任务。
关键思路

ProcTag方法创新性地对指令执行过程进行标记，以评估给定数据集的有效性，并实现文档指令的选择性采样或过滤。DocLayPrompt方法则是一种半结构化布局感知文档提示策略，可以有效地表示文档。
其它亮点

论文使用了ProcTag和DocLayPrompt方法来评估文档指令数据集的有效性，并证明了这些方法的有效性。实验结果表明，采用ProcTag方法的采样比当前方法更有效。此外，论文还提供了开源代码，并建议在未来研究中继续探索这些方法的应用。
相关研究

最近在这个领域中，一些相关的研究包括：《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问