- 简介当前的多模态大型语言模型(MLLMs)在视觉文档理解(VDU)任务中面临着重大挑战,这是由于文档图像通常具有高分辨率、密集文本和复杂布局等特点,需要MLLMs具有高水平的细节感知能力。虽然增加输入分辨率可以提高细节感知能力,但它也会导致更长的视觉令牌序列,增加计算成本并影响模型处理长上下文的能力。为了解决这些挑战,我们介绍了DocKylin,这是一种以文档为中心的MLLM,在视觉内容瘦身方面进行了优化,从而减少了VDU场景中的令牌序列长度。DocKylin利用自适应像素瘦身(APS)预处理模块进行像素级瘦身,增加了信息像素的比例。此外,DocKylin还采用了一种新颖的动态令牌瘦身(DTS)模块,进行令牌级瘦身,过滤必要的令牌并删除其他令牌,从而创建一个压缩的、自适应的视觉序列。实验表明,DocKylin在各种VDU基准测试中具有良好的性能。值得注意的是,所提出的APS和DTS都是无参数的,便于集成到现有的MLLMs中,我们的实验表明它们具有更广泛的应用潜力。
- 图表
- 解决问题本文旨在解决当前大型语言模型在视觉文档理解任务中面临的高分辨率、密集文本和复杂布局等挑战,提出了一种文档中心的多模态大型语言模型 DocKylin,通过像素和标记级别的视觉内容瘦身来减少视觉令牌序列长度。
- 关键思路本文提出了一种新颖的自适应像素瘦身(APS)预处理模块和动态标记瘦身(DTS)模块,分别在像素和标记级别上进行视觉内容瘦身,以减少视觉令牌序列长度,提高模型的处理能力。
- 其它亮点本文的亮点包括:APS和DTS是无参数的,易于集成到现有的大型语言模型中;实验结果表明 DocKylin 在各种视觉文档理解基准测试中表现出良好的性能;文中还介绍了使用的数据集和实验设计,并提出了一些值得深入研究的方向。
- 在相关研究方面,最近的研究包括《LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding》和《DocFormer: End-to-End Transformer for Document Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢