- 简介近年来,大型语言模型在自然语言处理领域取得了巨大成功,视觉领域的变体也同样如此。现有的视觉语言模型可以用自然语言描述图像,回答与视觉相关的问题,或者执行有关图像的复杂推理。然而,目前尚不清楚如何使用大型语言模型执行诸如词语定位或指称定位等定位任务。在这项工作中,我们旨在开发一种视觉语言模型,可以将位置(例如一组点或框)作为输入或输出。当将位置作为输入时,该模型执行位置条件的字幕生成,为指定的对象或区域生成字幕。当生成位置作为输出时,我们的模型对语言模型生成的每个输出单词进行像素坐标回归,从而执行密集的词语定位。我们的模型在定位叙述数据集上进行了预训练,该数据集包含来自人类注意力的像素-单词对齐字幕。我们展示了我们的模型可以应用于各种位置感知的视觉语言任务,包括指称定位、位置条件字幕生成和密集物体字幕生成,在RefCOCO和Visual Genome上实现了最先进的性能。项目页面:https://jerryxu.net/PixelLLM。
-
- 图表
- 解决问题本论文旨在开发一种视觉-语言模型,可以将位置作为输入或输出,实现位置相关的字幕生成、密集词语定位等任务。
- 关键思路该模型基于Localized Narrative数据集进行预训练,可以应用于各种位置感知的视觉-语言任务,包括指代定位、位置条件字幕生成和密集对象字幕生成。
- 其它亮点论文的实验结果表明,该模型在RefCOCO和Visual Genome等数据集上的表现优于现有的视觉-语言模型,具有很高的应用价值。研究者还提供了项目页面和开源代码。
- 与本论文相关的研究包括:1.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》;2.《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流