A Multimodal Transformer for Live Streaming Highlight Prediction

2024年06月15日
  • 简介
    最近,直播平台变得非常流行。传统的视频精华检测主要关注视觉特征,利用过去和未来的内容进行预测。然而,直播需要模型在没有未来帧的情况下进行推断,并处理复杂的多模态交互,包括图像、音频和文本评论。为了解决这些问题,我们提出了一种多模态变换器,它包含历史回溯窗口。我们引入了一种新颖的模态时间对齐模块来处理跨模态信号的时间偏移。此外,使用现有的数据集并进行有限的手动注释对于直播来说是不足的,因为直播的主题不断更新和改变。因此,我们提出了一种新颖的边界感知成对损失,从大规模数据集中学习,并利用用户的隐式反馈作为弱监督信号。广泛的实验表明,我们的模型在现实场景和公共数据集上均优于各种强基线模型。我们将发布我们的数据集和代码,以更好地评估这个主题。
  • 图表
  • 解决问题
    本论文旨在解决直播场景下的视频高光时刻检测问题,提出了一种融合历史信息和多模态交互的多模态Transformer模型,并利用边界感知的成对损失函数进行训练。
  • 关键思路
    论文的关键思路是使用多模态Transformer模型,结合历史信息和多模态交互,通过引入新的模态时间对齐模块来处理跨模态信号的时间偏移。
  • 其它亮点
    论文使用大规模数据集进行了实验,并通过引入成对损失函数来利用用户的隐式反馈信号进行训练。实验结果表明,该模型在真实场景和公共数据集上的表现均优于其他强基线模型。此外,论文还将数据集和代码开源,以便更好地评估该主题。
  • 相关研究
    在这个领域中,最近的相关研究包括:'Temporal Modular Networks for Retrieving Complex Compositions in Videos'、'Multi-modal Dense Video Captioning'、'Learning to Highlight for Rapid Video Summarization'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论