Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation

2024年07月24日
  • 简介
    文本到图像检索是多媒体处理中的基本任务,旨在检索语义相关的跨模态内容。传统的研究通常将这个任务视为一种判别问题,通过交叉注意力机制(单塔框架)或在公共嵌入空间中(双塔框架)匹配文本和图像。最近,生成式跨模态检索作为一条新的研究线出现了,它为图像分配了唯一的字符串标识符,并将目标标识符生成为检索目标。尽管具有巨大的潜力,但现有的生成式方法由于以下问题而受到限制:标识符中的视觉信息不足,与高级语义不匹配,以及与检索目标的学习差距。为了解决上述问题,我们提出了一种自回归的voken生成方法,名为AVG。AVG将图像标记为vokens,即视觉令牌,并将文本到图像检索任务创新地制定为令牌到voken生成问题。AVG将图像离散化为voken序列作为图像的标识符,同时保持图像的视觉信息和高级语义的对齐。此外,为了弥合生成式训练和检索目标之间的学习差距,我们结合判别式训练,在令牌到voken训练过程中修改学习方向。广泛的实验表明,AVG在效果和效率方面都取得了优异的结果。
  • 图表
  • 解决问题
    本文旨在解决文本到图像检索中存在的视觉信息不足、高层语义偏差和与检索目标之间的学习差距等问题。
  • 关键思路
    本文提出了一种基于voken生成的自回归voken生成方法,即AVG,将图像离散化为voken序列作为图像的标识符,同时保持与图像的视觉信息和高层语义的对齐,并通过引入判别式训练来缩小生成训练和检索目标之间的学习差距。
  • 其它亮点
    本文的实验结果表明,AVG在有效性和效率方面均取得了优异的结果。本文使用了多个数据集进行实验,并开源了代码。
  • 相关研究
    最近的相关研究包括基于交叉注意力机制的文本到图像检索方法和基于两个塔架构的文本到图像检索方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论