- 简介大型语言模型(LLMs)已经展示了出色的文本理解能力。现有的研究探索了它们在文本嵌入任务中的应用。然而,很少有人利用LLMs来辅助多模态表示任务。在这项工作中,我们研究了LLMs在多模态物品到物品(I2I)推荐中增强多模态表示的潜力。一种可行的方法是转移多模态大型语言模型(MLLMs)进行表示任务。然而,预训练MLLMs通常需要收集高质量的Web规模多模态数据,导致复杂的训练过程和高成本。这导致社区严重依赖开源MLLMs,阻碍了定制表示场景的训练。因此,我们旨在设计一种端到端的训练方法,定制任何现有LLMs和视觉编码器的整合,构建高效的多模态表示模型。初步实验表明,在这种端到端方法中,微调的LLMs往往会忽略图像内容。为了克服这个挑战,我们提出了一个新的训练框架NoteLLM-2,专门为多模态表示设计。我们提出了两种增强视觉信息关注的方法。第一种方法基于提示视角,将多模态内容分成视觉内容和文本内容。NoteLLM-2采用多模态内容学习方法,教LLMs专注于两种模态并聚合关键信息。第二种方法来自模型架构,利用后期融合机制将视觉信息直接融合到文本信息中。已经进行了广泛的实验来验证我们方法的有效性。
- 图表
- 解决问题如何利用大型语言模型(LLMs)提高多模态表示的效果?
- 关键思路设计一种端到端的训练方法,将现有的LLMs和视觉编码器进行定制集成,构建高效的多模态表示模型。提出一种名为NoteLLM-2的训练框架,通过两种方法增强对视觉信息的关注。
- 其它亮点论文提出的NoteLLM-2框架通过增强对视觉信息的关注,显著提高了多模态表示的效果。论文使用了多个数据集进行实验,并且开源了代码。值得进一步研究的是如何将该方法应用于其他多模态任务。
- 最近的相关研究主要集中在利用LLMs进行文本嵌入任务上,而本文则是将LLMs应用于多模态表示任务,提出了一种新的训练框架。相关论文包括:“Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training”和“VisualBERT: A Simple and Performant Baseline for Vision and Language”。
沙发等你来抢
去评论
评论
沙发等你来抢