LG-VQ: Language-Guided Codebook Learning

2024年05月23日
  • 简介
    本文介绍了一种名为LG-VQ的新型语言引导码本学习框架,旨在学习一个能够与文本对齐的码本,以提高多模态下游任务的性能。向量量化(VQ)是高分辨率和高保真度图像合成的关键技术,旨在学习一个码本,用一系列离散码编码图像,然后以自回归方式生成图像。虽然现有方法已经表现出优越的性能,但大多数方法更喜欢学习单模码本(例如,图像),这会导致当码本应用于多模态下游任务(例如,文本到图像,图像字幕)时,由于存在模态差距而导致性能次优。本文提出了一种新的语言引导码本学习框架LG-VQ,旨在学习一个能够与文本对齐的码本,以提高多模态下游任务的性能。具体来说,我们首先引入预训练文本语义作为先验知识,然后设计了两个新颖的对齐模块(即语义对齐模块和关系对齐模块),将这种先验知识转化为代码,以实现码本文本对齐。特别是,我们的LG-VQ方法是模型无关的,可以很容易地集成到现有的VQ模型中。实验结果表明,我们的方法在重建和各种多模态下游任务上实现了优越的性能。
  • 图表
  • 解决问题
    本论文旨在解决现有向单模态数据学习的向多模态任务应用存在的模态差距问题,提出了一种新的语言引导编码本学习框架,即LG-VQ。
  • 关键思路
    论文提出了一种基于预训练文本语义的编码本学习框架,通过引入两个新的对齐模块,将文本语义先验知识转化为代码,实现了编码本与文本的对齐。
  • 其它亮点
    实验结果表明,LG-VQ方法在重建和各种多模态下游任务上均取得了卓越的性能。该方法是模型无关的,可以轻松集成到现有的VQ模型中。论文开源了代码。
  • 相关研究
    与本论文相关的研究包括:《Learning Cross-Modal Embeddings for Cooking Recipes and Food Images》、《Multimodal Generative Models for Scalable Weakly-Supervised Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论