- 简介我们提出了TextMonkey,这是一个专门用于文本中心任务的大型多模型(LMM),包括文档问答(DocVQA)和场景文本分析。我们的方法在多个方面进行了改进:通过采用具有零初始化的Shifted Window Attention,我们实现了更高输入分辨率下的窗口间连接,并稳定了早期训练;我们假设图像可能包含冗余的标记,通过使用相似性来过滤重要的标记,我们不仅可以简化标记长度,还可以提高模型的性能。此外,通过扩展我们模型的功能以包括文本定位和定位,以及将位置信息纳入响应中,我们增强了可解释性并减少了幻觉。此外,TextMonkey可以进行微调,以获得理解点击屏幕截图命令的能力。总体而言,我们的方法显着提高了各种基准数据集的性能,在场景文本中心VQA、文档导向VQA和KIE方面分别增加了5.2%、6.9%和2.8%,特别是在OCRBench上获得了561分的高分,超过了先前针对文档理解的开源大型多模型。代码将在https://github.com/Yuliang-Liu/Monkey发布。
- 图表
- 解决问题本文旨在解决文本中心任务,包括文档问答和场景文本分析。作者采用了多种方法来增强模型的性能和可解释性。
- 关键思路本文采用了Shifted Window Attention和相似度过滤等方法来增强模型性能。同时,还扩展了模型的能力以包括文本定位和文本对齐,并将位置信息纳入响应中以增强模型的可解释性。
- 其它亮点本文的方法在多个基准数据集上显著提高了性能。作者还开源了代码,并提供了可供深入研究的方向。
- 最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《Learning to See, Learning to Act: Embodied Agents with Visual Perception》、《TextCaps: Handwritten Character Recognition with Very Small Datasets》等。
沙发等你来抢
去评论
评论
沙发等你来抢