- 简介智能设备的普及使用户能够在线体验多模态信息,这些设备具有捕捉多种形式瞬间的能力。然而,大型语言模型(LLMs)和视觉模型(LVMs)在捕捉跨模态语义关系的整体含义方面仍存在局限性。如果没有明确的常识知识(例如知识图谱),视觉语言模型(VLMs)只能通过捕捉庞大语料库中的高级模式来学习隐式表示,从而错过了重要的上下文跨模态线索。在这项工作中,我们设计了一个框架,将常识知识以知识图谱的形式与大型VLMs相结合,以提高下游任务的性能,即预测多模态营销活动的有效性。虽然营销应用提供了一个有说服力的衡量我们方法的指标,但我们的方法使得早期检测可能的有说服力的多模态活动成为可能,并且可以评估和增强营销理论。
- 图表
- 解决问题如何通过将知识图谱与大型视觉语言模型相结合,提高多模态营销活动效果预测的准确性?
- 关键思路将知识图谱与大型视觉语言模型耦合,以提供上下文跨模态线索,从而提高多模态营销活动效果预测的准确性。
- 其它亮点论文设计了一个框架,将显式的常识知识以知识图谱的形式与大型视觉语言模型结合,以提高下游任务的性能。实验结果表明,该方法可以提高多模态营销活动效果预测的准确性。
- 最近的相关研究包括“Multimodal Learning with Knowledge Graphs for E-commerce”和“Multimodal Knowledge Graphs for Artificial Intelligence”。
沙发等你来抢
去评论
评论
沙发等你来抢