Improving Contextual Congruence Across Modalities for Effective Multimodal Marketing using Knowledge-infused Learning

2024年02月06日
  • 简介
    智能设备的普及使用户能够在线体验多模态信息,这些设备具有捕捉多种形式瞬间的能力。然而,大型语言模型(LLMs)和视觉模型(LVMs)在捕捉跨模态语义关系的整体含义方面仍存在局限性。如果没有明确的常识知识(例如知识图谱),视觉语言模型(VLMs)只能通过捕捉庞大语料库中的高级模式来学习隐式表示,从而错过了重要的上下文跨模态线索。在这项工作中,我们设计了一个框架,将常识知识以知识图谱的形式与大型VLMs相结合,以提高下游任务的性能,即预测多模态营销活动的有效性。虽然营销应用提供了一个有说服力的衡量我们方法的指标,但我们的方法使得早期检测可能的有说服力的多模态活动成为可能,并且可以评估和增强营销理论。
  • 图表
  • 解决问题
    如何通过将知识图谱与大型视觉语言模型相结合,提高多模态营销活动效果预测的准确性?
  • 关键思路
    将知识图谱与大型视觉语言模型耦合,以提供上下文跨模态线索,从而提高多模态营销活动效果预测的准确性。
  • 其它亮点
    论文设计了一个框架,将显式的常识知识以知识图谱的形式与大型视觉语言模型结合,以提高下游任务的性能。实验结果表明,该方法可以提高多模态营销活动效果预测的准确性。
  • 相关研究
    最近的相关研究包括“Multimodal Learning with Knowledge Graphs for E-commerce”和“Multimodal Knowledge Graphs for Artificial Intelligence”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论