Multi-Modal Generative Embedding Model

简介

大多数多模态任务可以归结为生成或嵌入问题。现有模型通常通过将语言模块分解为用于生成的文本解码器和用于嵌入的文本编码器来解决这两种类型的问题。为了探索多模态范式的极简主义，本文尝试在每种模态中仅实现一个模型。我们提出了一个多模态生成嵌入模型（MM-GEM），其中生成和嵌入目标封装在一个大型语言模型中。我们还提出了一种PoolAggregator来提高效率并实现细粒度嵌入和生成的能力。一个令人惊讶的发现是，这两个目标并不会显著地相互冲突。例如，从ViT-Large和TinyLlama实例化的MM-GEM在多模态嵌入模型的基准测试中表现出竞争力，如跨模态检索和零-shot分类，同时具有良好的图像字幕生成能力。此外，MM-GEM可以无缝地执行区域级图像字幕生成和检索任务。此外，MM-GEM中的高级文本模型为长文本和图像检索的Recall@1带来了超过5％的改进。
图表
解决问题

本文旨在探索多模态问题的最小化解决方案，提出了一种将生成和嵌入目标封装在一个大型语言模型中的多模态生成嵌入模型（MM-GEM）。作者试图通过这种方式解决当前多模态问题中需要分别使用文本解码器和文本编码器的问题，并探索两个目标之间的相互影响。
关键思路

本文提出的MM-GEM模型将生成和嵌入目标封装在一个大型语言模型中，并使用PoolAggregator来提高效率和实现细粒度的嵌入和生成能力。实验结果表明，MM-GEM在跨模态检索、零样本分类和图像字幕生成等基准测试中表现出色，并为长文本和图像检索的Recall@1带来了超过5%的改进。
其它亮点

本文的亮点包括：使用了一种仅使用一个模型来解决多模态问题的方法；提出了PoolAggregator来提高效率和实现细粒度的嵌入和生成能力；在多个基准测试中取得了竞争力的表现；能够无缝地执行区域级图像字幕生成和检索任务；在长文本和图像检索中取得了显著的改进。
相关研究

与本文相关的研究包括：使用多个模型来解决多模态问题的方法，如CLIP和UNIT；使用类似的多模态生成嵌入模型的方法，如DALL-E和CLIP。

Multi-Modal Generative Embedding Model

评论