Improving Contextual Congruence Across Modalities for Effective Multimodal Marketing using Knowledge-infused Learning

简介

智能设备的普及使用户能够在线体验多模态信息，这些设备具有捕捉多种形式瞬间的能力。然而，大型语言模型（LLMs）和视觉模型（LVMs）在捕捉跨模态语义关系的整体含义方面仍存在局限性。如果没有明确的常识知识（例如知识图谱），视觉语言模型（VLMs）只能通过捕捉庞大语料库中的高级模式来学习隐式表示，从而错过了重要的上下文跨模态线索。在这项工作中，我们设计了一个框架，将常识知识以知识图谱的形式与大型VLMs相结合，以提高下游任务的性能，即预测多模态营销活动的有效性。虽然营销应用提供了一个有说服力的衡量我们方法的指标，但我们的方法使得早期检测可能的有说服力的多模态活动成为可能，并且可以评估和增强营销理论。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何通过将知识图谱与大型视觉语言模型相结合，提高多模态营销活动效果预测的准确性？
关键思路

将知识图谱与大型视觉语言模型耦合，以提供上下文跨模态线索，从而提高多模态营销活动效果预测的准确性。
其它亮点

论文设计了一个框架，将显式的常识知识以知识图谱的形式与大型视觉语言模型结合，以提高下游任务的性能。实验结果表明，该方法可以提高多模态营销活动效果预测的准确性。
相关研究

最近的相关研究包括“Multimodal Learning with Knowledge Graphs for E-commerce”和“Multimodal Knowledge Graphs for Artificial Intelligence”。

Improving Contextual Congruence Across Modalities for Effective Multimodal Marketing using Knowledge-infused Learning

提问交流

提问交流