NoteLLM-2: Multimodal Large Representation Models for Recommendation

简介

大型语言模型（LLMs）已经展示了出色的文本理解能力。现有的研究探索了它们在文本嵌入任务中的应用。然而，很少有人利用LLMs来辅助多模态表示任务。在这项工作中，我们研究了LLMs在多模态物品到物品（I2I）推荐中增强多模态表示的潜力。一种可行的方法是转移多模态大型语言模型（MLLMs）进行表示任务。然而，预训练MLLMs通常需要收集高质量的Web规模多模态数据，导致复杂的训练过程和高成本。这导致社区严重依赖开源MLLMs，阻碍了定制表示场景的训练。因此，我们旨在设计一种端到端的训练方法，定制任何现有LLMs和视觉编码器的整合，构建高效的多模态表示模型。初步实验表明，在这种端到端方法中，微调的LLMs往往会忽略图像内容。为了克服这个挑战，我们提出了一个新的训练框架NoteLLM-2，专门为多模态表示设计。我们提出了两种增强视觉信息关注的方法。第一种方法基于提示视角，将多模态内容分成视觉内容和文本内容。NoteLLM-2采用多模态内容学习方法，教LLMs专注于两种模态并聚合关键信息。第二种方法来自模型架构，利用后期融合机制将视觉信息直接融合到文本信息中。已经进行了广泛的实验来验证我们方法的有效性。
图表
解决问题

如何利用大型语言模型（LLMs）提高多模态表示的效果？
关键思路

设计一种端到端的训练方法，将现有的LLMs和视觉编码器进行定制集成，构建高效的多模态表示模型。提出一种名为NoteLLM-2的训练框架，通过两种方法增强对视觉信息的关注。
其它亮点

论文提出的NoteLLM-2框架通过增强对视觉信息的关注，显著提高了多模态表示的效果。论文使用了多个数据集进行实验，并且开源了代码。值得进一步研究的是如何将该方法应用于其他多模态任务。
相关研究

最近的相关研究主要集中在利用LLMs进行文本嵌入任务上，而本文则是将LLMs应用于多模态表示任务，提出了一种新的训练框架。相关论文包括：“Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training”和“VisualBERT: A Simple and Performant Baseline for Vision and Language”。

NoteLLM-2: Multimodal Large Representation Models for Recommendation

评论