An Inverse Partial Optimal Transport Framework for Music-guided Movie Trailer Generation

2024年07月28日
  • 简介
    本研究提出了一种逆偏最优传输(IPOT)框架,以实现音乐引导的电影预告片生成,该框架旨在从像电影这样的长视频中选择突出的镜头并以吸引人的方式重新组织它们。具体而言,我们将预告片生成任务形式化为基于音频镜头选择和排序关键电影镜头,这涉及匹配视觉和声学模态之间的潜在表示。我们在所提出的IPOT框架中学习了一个多模态潜在表示模型,以实现这个目标。在这个框架中,一个双塔编码器分别推导出电影和音乐镜头的潜在表示,而一个注意力辅助的Sinkhorn匹配网络参数化了镜头潜在表示和电影镜头分布之间的接地距离。将电影镜头与其预告片音乐镜头之间的对应关系作为定义在接地距离上的观察到的最优传输计划,我们通过解决逆偏最优传输问题来学习模型,从而实现了双层优化策略。我们收集了真实的电影及其预告片,构建了一个具有丰富标签信息的数据集,称为CMTD,并相应地训练和评估各种自动预告片生成器。与最先进的方法相比,我们的IPOT方法在主观视觉效果和客观定量测量方面始终表现出优越性。
  • 图表
  • 解决问题
    音乐引导的电影预告片生成
  • 关键思路
    提出了一种基于逆偏最优传输(IPOT)框架的音乐引导电影预告片生成方法,通过学习多模态潜在表示模型来匹配视觉和音频模态的潜在表示,从而实现基于音频镜头选择和排序关键电影镜头的任务。
  • 其它亮点
    论文提出的IPOT方法在主观视觉效果和客观量化评估方面都表现出优越性,实验使用了CMTD数据集,该数据集包含有丰富的标签信息,值得进一步研究。
  • 相关研究
    相关研究包括:《Learning to Generate Trailers and Interpretable Latent Spaces》、《Movie Trailer Creation from Videos Using Deep Learning》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论