- 简介现有的多模态大型语言模型(MLLMs)越来越强调对各种视觉元素的复杂理解,包括多个对象、文本信息和空间关系。它们的综合视觉感知的发展取决于提供多样化的视觉元素和全面的图像描述的高质量图像文本数据集的可用性。然而,目前缺乏这种超详细数据集,这限制了MLLM社区的进展。瓶颈在于当前字幕引擎的有限感知能力,无法提供完整准确的注释。为了促进MLLM在全面视觉感知方面的前沿研究,我们提出了感知融合(Perceptual Fusion),使用低成本但高效的字幕引擎进行完整准确的图像描述。具体而言,感知融合将多样化的感知专家作为图像先验,提供关于视觉元素的显式信息,并采用高效的MLLM作为中心枢纽,模仿先进MLLM的感知能力。我们从未经筛选的LAION数据集中精选了100万张高度代表性的图像,并使用我们的引擎DenseFusion-1M生成密集描述。广泛的实验验证了我们的引擎优于其对手,所得到的数据集显著提高了现有MLLM在各种视觉语言基准测试中的感知和认知能力,特别是在高分辨率图像输入方面。数据集和代码可在https://github.com/baaivision/DenseFusion上公开获取。
-
- 图表
- 解决问题解决问题:文章旨在解决Multimodal Large Language Models (MLLMs)在视觉感知方面的瓶颈问题,即缺乏高质量的图像-文本数据集。
- 关键思路关键思路:文章提出了Perceptual Fusion的方法,使用一个低成本但高效的字幕引擎DenseFusion-1M来提供完整准确的图像描述,并将多样的感知专家作为图像先验信息,采用高效的MLLM模型作为中心枢纽来模拟先进的MLLMs的感知能力。
- 其它亮点亮点:文章选择了100万张高度代表性的图像,并使用DenseFusion-1M生成密集描述。实验结果表明,该方法优于其对手,从而显著提高了现有MLLMs在各种视觉-语言基准测试中的感知和认知能力,特别是在高分辨率图像的输入情况下。数据集和代码公开可用。
- 相关研究:最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流