MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing

2024年05月18日
  • 简介
    “Memes”作为一种流行的媒介,被用于各种不同的交流,从幽默到宣传。随着以图像为重点的内容日益受到欢迎,有必要从不同的角度探讨其潜在的危害。以往的研究分析了封闭环境中的“Memes”,检测其危害,应用语义标签,并提供自然语言解释。为了扩展这项研究,我们介绍了MemeMQA,这是一个多模态问答框架,旨在提供准确的结构化问题回答和连贯的解释。我们策划了MemeMQACorpus,这是一个新的数据集,包括1,880个与1,122个“Memes”相关的问题和相应的答案-解释对。我们进一步提出了ARSENAL,这是一个新颖的两阶段多模态框架,利用LLMs的推理能力来解决MemeMQA问题。我们使用竞争基线对MemeMQA进行基准测试,并展示了其优越性——相比最佳基线,约提高了18%的答案预测准确性和独特的文本生成优势,各种衡量词汇和语义对齐的度量标准。我们通过多样化的问题集、混淆因素评估MemeMQA的泛化能力以及模态特定的评估来分析ARSENAL的鲁棒性,增强了我们对多模态交流中“Memes”解释的理解。
  • 图表
  • 解决问题
    本文旨在探讨基于图像的内容在多种交流中的潜在危害,并介绍了MemeMQA,一个多模态问答框架,旨在回答结构化问题并提供连贯的解释。
  • 关键思路
    本文提出了ARSENAL,这是一个新颖的两阶段多模态框架,利用LLMs的推理能力来解决MemeMQA。相比于当前领域的研究,ARSENAL的思路具有创新性。
  • 其它亮点
    本文提供了一个新的数据集MemeMQACorpus,包含1,880个与1,122个Meme相关的问题和相应的答案-解释对,同时提出了ARSENAL框架,并进行了实验评估。实验结果表明,MemeMQA具有更高的答案预测准确性和文本生成能力,具有潜在的应用价值。
  • 相关研究
    最近的相关研究包括:1.基于视觉和语义信息的图像问答;2.基于多模态融合的图像分类和检索;3.基于卷积神经网络的图像标注。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论