NoteLLM-2: Multimodal Large Representation Models for Recommendation

2024年05月27日
  • 简介
    大型语言模型(LLMs)已经展示了出色的文本理解能力。现有的研究探索了它们在文本嵌入任务中的应用。然而,很少有人利用LLMs来辅助多模态表示任务。在这项工作中,我们研究了LLMs在多模态物品到物品(I2I)推荐中增强多模态表示的潜力。一种可行的方法是转移多模态大型语言模型(MLLMs)进行表示任务。然而,预训练MLLMs通常需要收集高质量的Web规模多模态数据,导致复杂的训练过程和高成本。这导致社区严重依赖开源MLLMs,阻碍了定制表示场景的训练。因此,我们旨在设计一种端到端的训练方法,定制任何现有LLMs和视觉编码器的整合,构建高效的多模态表示模型。初步实验表明,在这种端到端方法中,微调的LLMs往往会忽略图像内容。为了克服这个挑战,我们提出了一个新的训练框架NoteLLM-2,专门为多模态表示设计。我们提出了两种增强视觉信息关注的方法。第一种方法基于提示视角,将多模态内容分成视觉内容和文本内容。NoteLLM-2采用多模态内容学习方法,教LLMs专注于两种模态并聚合关键信息。第二种方法来自模型架构,利用后期融合机制将视觉信息直接融合到文本信息中。已经进行了广泛的实验来验证我们方法的有效性。
  • 图表
  • 解决问题
    如何利用大型语言模型(LLMs)提高多模态表示的效果?
  • 关键思路
    设计一种端到端的训练方法,将现有的LLMs和视觉编码器进行定制集成,构建高效的多模态表示模型。提出一种名为NoteLLM-2的训练框架,通过两种方法增强对视觉信息的关注。
  • 其它亮点
    论文提出的NoteLLM-2框架通过增强对视觉信息的关注,显著提高了多模态表示的效果。论文使用了多个数据集进行实验,并且开源了代码。值得进一步研究的是如何将该方法应用于其他多模态任务。
  • 相关研究
    最近的相关研究主要集中在利用LLMs进行文本嵌入任务上,而本文则是将LLMs应用于多模态表示任务,提出了一种新的训练框架。相关论文包括:“Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training”和“VisualBERT: A Simple and Performant Baseline for Vision and Language”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论