- 简介Panoptic narrative grounding(PNG)的核心目标是对细粒度的图像-文本对齐,需要在叙述性标题的基础上对所指对象进行全景分割。以往的判别式方法通过全景分割预训练或CLIP模型适应仅能实现弱或粗糙的对齐。鉴于最近文本到图像扩散模型的进展,一些研究表明它们通过交叉注意力图和改进的通用分割性能实现了细粒度的图像-文本对齐能力。然而,直接将短语特征用作静态提示来应用冻结的扩散模型到PNG任务仍存在很大的任务差距和不足的视觉语言交互,导致性能较差。因此,我们提出了一种提取-注入短语适配器(EIPA),在扩散UNet中进行绕过,用图像特征动态更新短语提示并注入多模态线索,更充分地利用扩散模型的细粒度图像-文本对齐能力。此外,我们还设计了一个多级相互聚合(MLMA)模块,用于相互融合多级图像和短语特征进行分割细化。在PNG基准测试上进行了大量实验,结果表明我们的方法实现了新的最先进性能。
-
- 图表
- 解决问题本论文旨在解决细粒度图像-文本对齐问题,通过设计一种动态更新短语提示并注入多模态线索的方法,提高Diffusion模型的细粒度图像-文本对齐能力。
- 关键思路论文提出了一种Extractive-Injective Phrase Adapter(EIPA)方法,将动态更新的短语提示与图像特征相结合,注入Diffusion UNet中,以提高细粒度图像-文本对齐能力。同时,论文还设计了一个Multi-Level Mutual Aggregation(MLMA)模块,用于多层次图像和短语特征的相互融合和分割细化。
- 其它亮点论文在PNG基准测试中进行了广泛的实验,证明了该方法的优越性能。论文的亮点包括动态更新短语提示的EIPA方法和多层次特征相互融合的MLMA模块。论文使用了大量数据集,并且开源了代码。该方法可应用于自然语言处理和计算机视觉领域。
- 最近在这个领域中,一些相关的研究包括:《CLIP: Connecting Text and Images》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流