【多模态】基于视频和文档的多模态摘要生成 【论文标题】Multi-modal Summarization for Video-containing Documents 【作者团队】 Xiyan Fu, Jun Wang, Zhenglu Yang 【发表时间】2020/09/17 【论文链接】https://arxiv.org/abs/2009.08018 【推荐理由】摘要多模态的数据在现实场景下的需求越来越大,如问题回答,网络搜索等等。然而,现有的多模态摘要大都使用了从图像而不是视频中提取的视觉互补特征,从而丢失了丰富的跨模态连接的信息。本文提出了一种新的多模态摘要任务,从一个文档及其相关视频中进行摘要。这项工作还发布了一个具有有效策略的基线通用模型,bi-hop注意力和改进的后期融合机制以拟合不同模式之间的差距。同时总结出了一个双向摘要策略,来同时使用文本和视频进行摘要生成。综合实验表明,该模型有利于多模态归纳,优于现有方法。此外,作者发布了一个新的多模态数据集,对文本和视频多模态摘要提供了进一步探索的空间。 图1 多模态摘要模型图例

内容中包含的图片若涉及版权问题,请及时与我们联系删除