各种模态充斥着我们的生活,让模型能够对多种模态信息理解和推理,是目前研究的热点方向。本文将介绍AAAI 2022关于多模态的相关工作,一篇关于Knowledge-Based VQA,两篇关于Multimodal Summarization。
1. Multi-Modal Answer Validation for Knowledge-Based VQA
论文地址:https://arxiv.org/pdf/2103.12248.pdf
基于知识的视觉问答任务除了图像本身,还需要外部知识来回答问题。这种知识通常分为视觉、文本和常识。然而,更多的知识来源,会引入越多的不相关的、嘈杂的事实,也会使理解事实和找出答案变得更困难。为此,作者提出了使用外部知识的多模态答案验证(MAVEx),并首次使用外部的视觉知识,实验结果表明,在OK-VQA数据集上达到了SOTA。
2. UniMS: A Unified Framework for Multimodal Summarization with Knowledge Distillation
论文地址:https://arxiv.org/pdf/2109.05812.pdf
多模态摘要,旨在从文本和视觉模态中提炼出重要的信息,并输出最相关的图片。现有的方法大多侧重于提取式或抽象式摘要,并依靠高质量的图像描述来建立图像参考。作者首次提出了一个基于BART的多模态摘要的统一框架,即UniMS,它采用视觉语言预训练模型的知识蒸馏来改进图像选择,还引入了一个视觉引导解码器,以更好地整合文本和视觉模态来引导抽象文本的生成。结果表明,UniMS最佳模型在一个大规模的基准数据集上取得了新的最先进的结果。
3. Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization
论文地址:https://arxiv.org/pdf/2112.12072v1.pdf
传统的MSMO方法通过学习整个数据的表征来无差别地处理不同模式的数据,这并不能直接适应异质内容和层次性的关联。为此,作者提出了一个层次化的跨模态语义关联学习模型(HCSCL)来学习多模态数据中存在的模态内和模态间关联。此外,作者还构建了一个新的数据集,其中包含相关的图像注释和图像对象标签信息,为学习过程提供监督信息。在该数据集上的大量实验表明,HCSCL在自动摘要指标和细粒度多样性测试中明显优于基线方法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢